SmartShylyBoy-CSDN博客

转载什么是Kerberos？

关于Kerberos什么是Kerberos？一句话，Kerberos是一种认证机制。它的目的：通过密钥系统为客户端/服务器应用程序提供强大的认证服务：保护服务器防止错误的用户使用，同时保护它的用户使用正确的服务器，即支持双向验证；Kerberos协议的整个认证过程实现不依赖于主机操作系统的认证，无需基于主机地址的信任，不要求网络上所有主机的物理安全，并假定网络上传送的数据包可以被任意地读取...

2018-11-03 17:38:43 4881

原创复习计算机基础（cpu是重点）

回顾一下计算机基础知识（按重点）：一、CPU：包括控制单元、算术逻辑单元和记忆单元等1.1 CPU包含：ALU（算术逻辑单元）、Cache（高速缓冲处理器）、Bus（总线）CPU（中央处理器）是整台机器的核心，是一个具有特定功能的芯片，里头含有微指令集，如果你先刚主机进行什么特异功能，就得要参考CPU是否具有相关的内置的微指令集才可以。CPU的工作主要是在管理和运算，所以和将其分为来两个单...

2018-11-02 21:45:03 672

我们在使用数据仓库时，一般会公司会使用hive作为首选数据仓库而不是性能更高Teradata（数据仓库配备性能最高、最可靠的大规模并行处理 (MPP) 平台，能够高速处理海量数据，其性能远远高于Hive）呢，这就是hive的最大的优点一个是原生hadoop生态系统完全兼容第二个就是不要钱。关于数据仓库是什么我之前做过解释，这里就添加一个面试常问的问题，hive内部表和外部表有什么区别？其核心就...

2018-09-14 22:57:58 1100

原创 hadoop生态圈中hive模块100问

一、嘛是数据仓库和数据库的区别？hive的是一个数据仓库，数据仓库是面向主题的，偏向于做OLAP（online-Analytical-Processing），只要工作是方便给决策人员提供报表，来做决策分析。而传统关系型数据库比如MySQL是面向应用，主要工作是在指定的隔离机制中做增删改查的，偏向OLTP（Online-Transation-Processing）联机事务处理，同样二者数据存储结...

2018-09-10 17:12:56 384

原创 RDD、DataFrame、DataSet的关系是抽象关系

一、序言可以说，RDD的使用是Spark最重要的抽象概念！初学者可能不太理解这三者之间的关系，其实他们就是不断地抽象、封装，目的只有一个，Apache让Spark让你使用起来更简单！功能更强大！二、三者的介绍RDD：传统MapReduce虽然也具有自动容错、负载均衡、可拓展等特点，但是是采用非循环的数据流模型结构，这使得在迭代时要与HDFS产生大量的IO，RDD正是解决了这个缺点...

2018-09-08 23:27:06 513

原创梳理spark中shuffle操作HashShuﬄeManager和SortShuﬄeManager的原理

spark中的shuﬄeManager是负责shuﬄe过程的执行,计算和处理的组件.shuﬄeManager是trait,主要实现类有两个:一个是HashShuﬄeManager,另外一个是SortShuﬄeManager.一、HashShuffleManager和SortShuﬄeManager的关键区别HashShuffleManager在1.2版本之前是默认使用的shuffle版...

2018-09-08 22:41:18 286

转载解析spark和mapReduce的区别和优劣

作者：知乎用户链接：https://www.zhihu.com/question/53354580/answer/307863620 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。首先大数据涉及两个方面：分布式存储系统和分布式计算框架。前者的理论基础是GFS。后者的理论基础为MapReduce。MapReduce框架有两个步骤（MapReduce 框架...

2018-09-05 15:28:32 7790

原创透视Scala函数的柯里化

一、什么是柯里化柯里化(Currying)指的是把原来接受多个参数的函数变换成接受一个参数的函数过程，并且返回接受余下的参数且返回结果为一个新函数的技术。二、例子 (1)一个普通的非柯里化的函数定义，实现一个加法函数：scala> def plainOldSum(x:Int,y:Int)=x+yplainOldSum: (x: Int, y: Int)Intscala...

2018-08-31 19:20:41 245

原创数据库是根和数据仓库是魂

注：本文ETL部分完全来自https://www.cnblogs.com/yjd_hycf_space/p/7772722.html一、什么是数据仓库数据仓库，Data Warehouse，可简写为DW或者DWH，数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持，他出于分析性报告和决策目的而创建的数据集合二、数据库的特性：面向主题：传统数据库中，最大的...

2018-08-28 01:38:20 460

原创介绍shell的来龙去脉给你看

一、什么是shell？先理解几个概念： 1. shell（贝壳，外壳）：shell是一个用c语言编写的程序，通过shell，用户可以访问linux系统内核服务，它类似dos下的command和我们熟知windows中的cmd.exe（秒懂有木有~） 2. shell既是一种命令语言又是一种程序设计语言，但是shell script是一种shell编写的脚本程序不是指shell本身。（也...

2018-08-27 21:00:29 607

原创产品经理都看懂了之hashmap、hashtable、ConcurrentHashMap解析

一、什么是hash既然每个字都离不开hash，那我们就从hash函数说起：hash函数也称散列函数、杂凑函数（很形象了），他的作用一般用于信息安全中的加密算法，具体做法是把任意长度的输入（又叫做预映射)通过hash（散列）算法，变成固定长度的输出，一般情况下散列空间远小于输入空间，但是不同的输入可能造成相同的输出（哈希碰撞，一个关键字会映射到同一个位桶中的情况，这种情况就就叫做哈希冲突，解决...

2018-08-25 22:10:43 316

原创消息中间件/消息总线/消息队列

一、总论：消息中间件的三大作用：系统解耦、异步处理、流量削峰。 1、异步处理：解决串行和单纯并行，但是这样做也有弊端，比如注册实际是失败了，但是已经显示注册完成！ 2、系统解耦：写死接口导致的问题不用多说吧，并且导致分布式系统无法解决高并发（不准确） 3、流量消峰：也称限流，在秒杀等业务中为防止流量突增冲垮系统，会使用消息中间件使做排队处理，用降低用户体验度的方式保证系统的安全。二、...

2018-08-25 19:53:56 798

原创消息中间件/消息总线/消息队列

一、总论：消息中间件的三大作用：系统解耦、异步处理、流量削峰。 1、异步处理：解决串行和单纯并行，但是这样做也有弊端，比如注册实际是失败了，但是已经显示注册完成！ 2、系统解耦：写死接口导致的问题不用多说吧，并且导致分布式系统无法解决高并发（不准确） 3、流量消峰：也称限流，在秒杀等业务中为防止流量突增冲垮系统，会使用消息中间件使做排队处理，用降低用户体验度的方式保证系统的安全。二、...

2018-08-21 20:39:11 3204

原创菜鸟进阶之路之redis理解总结

一、总述：redis是内存版的nosql数据库，因为纯内存存储，所以使用单线效率最高！（处理器是单核的情况下是这样），因为内存寻址时间相比硬盘的寻道时间来说是可以忽略不计的，但是现实中现代处理器往往是都是多核，怎么保证资源不会被浪费呢？多创建几个redis实例，并且为每个实例指定其所运行的CPU不就好啦？二、概念描述进阶：//todo1循序还要排一下2详细解释 1、热数据冷数据概念：门庭若市...

2018-08-20 21:10:56 268

SmartShylyBoy的博客

转载什么是Kerberos？

原创复习计算机基础（cpu是重点）

原创 hive内部表和外部表的区别

原创 hadoop生态圈中hive模块100问

原创 RDD、DataFrame、DataSet的关系是抽象关系

原创梳理spark中shuffle操作HashShuﬄeManager和SortShuﬄeManager的原理

转载解析spark和mapReduce的区别和优劣

原创透视Scala函数的柯里化

原创数据库是根和数据仓库是魂

原创介绍shell的来龙去脉给你看

原创产品经理都看懂了之hashmap、hashtable、ConcurrentHashMap解析

原创消息中间件/消息总线/消息队列

原创消息中间件/消息总线/消息队列

原创菜鸟进阶之路之redis理解总结

空空如也

空空如也