- 博客(54)
- 收藏
- 关注
转载 什么是Kerberos?
关于Kerberos什么是Kerberos?一句话,Kerberos是一种认证机制。它的目的:通过密钥系统为客户端/服务器应用程序提供强大的认证服务:保护服务器防止错误的用户使用,同时保护它的用户使用正确的服务器,即支持双向验证;Kerberos协议的整个认证过程实现不依赖于主机操作系统的认证,无需基于主机地址的信任,不要求网络上所有主机的物理安全,并假定网络上传送的数据包可以被任意地读取...
2018-11-03 17:38:43
4881
原创 复习计算机基础(cpu是重点)
回顾一下计算机基础知识(按重点):一、CPU:包括控制单元、算术逻辑单元和记忆单元等1.1 CPU包含:ALU(算术逻辑单元)、Cache(高速缓冲处理器)、Bus(总线)CPU(中央处理器)是整台机器的核心,是一个具有特定功能的芯片,里头含有微指令集,如果你先刚主机进行什么特异功能,就得要参考CPU是否具有相关的内置的微指令集才可以。CPU的工作主要是在管理和运算,所以和将其分为来两个单...
2018-11-02 21:45:03
672
原创 hive内部表和外部表的区别
我们在使用数据仓库时,一般会公司会使用hive作为首选数据仓库而不是性能更高Teradata(数据仓库配备性能最高、最可靠的大规模并行处理 (MPP) 平台,能够高速处理海量数据,其性能远远高于Hive)呢,这就是hive的最大的优点一个是原生hadoop生态系统完全兼容第二个就是不要钱。关于数据仓库是什么我之前做过解释,这里就添加一个面试常问的问题,hive内部表和外部表有什么区别?其核心就...
2018-09-14 22:57:58
1100
原创 hadoop生态圈中hive模块100问
一、嘛是数据仓库和数据库的区别?hive的是一个数据仓库,数据仓库是面向主题的,偏向于做OLAP(online-Analytical-Processing),只要工作是方便给决策人员提供报表,来做决策分析。而传统关系型数据库比如MySQL是面向应用,主要工作是在指定的隔离机制中做增删改查的,偏向OLTP(Online-Transation-Processing)联机事务处理,同样二者数据存储结...
2018-09-10 17:12:56
384
原创 RDD、DataFrame、DataSet的关系是抽象关系
一、序言 可以说,RDD的使用是Spark最重要的抽象概念! 初学者可能不太理解这三者之间的关系,其实他们就是不断地抽象、封装,目的只有一个,Apache让Spark让你使用起来更简单!功能更强大!二、三者的介绍RDD:传统MapReduce虽然也具有自动容错、负载均衡、可拓展等特点,但是是采用非循环的数据流模型结构,这使得在迭代时要与HDFS产生大量的IO,RDD正是解决了这个缺点...
2018-09-08 23:27:06
513
原创 梳理spark中shuffle操作HashShuffleManager和SortShuffleManager的原理
spark中的shuffleManager是负责shuffle过程的执行,计算和处理的组件.shuffleManager是trait,主要实现类有两 个:一个是HashShuffleManager,另外一个是SortShuffleManager.一、HashShuffleManager和SortShuffleManager的关键区别HashShuffleManager在1.2版本之前是默认使用的shuffle版...
2018-09-08 22:41:18
286
转载 解析spark和mapReduce的区别和优劣
作者:知乎用户 链接:https://www.zhihu.com/question/53354580/answer/307863620 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。首先大数据涉及两个方面:分布式存储系统和分布式计算框架。前者的理论基础是GFS。后者的理论基础为MapReduce。MapReduce框架有两个步骤(MapReduce 框架...
2018-09-05 15:28:32
7790
原创 透视Scala函数的柯里化
一、什么是柯里化 柯里化(Currying)指的是把原来接受多个参数的函数变换成接受一个参数的函数过程,并且返回接受余下的参数且返回结果为一个新函数的技术。二、例子 (1)一个普通的非柯里化的函数定义,实现一个加法函数:scala> def plainOldSum(x:Int,y:Int)=x+yplainOldSum: (x: Int, y: Int)Intscala...
2018-08-31 19:20:41
245
原创 数据库是根和数据仓库是魂
注:本文ETL部分完全来自https://www.cnblogs.com/yjd_hycf_space/p/7772722.html一、什么是数据仓库 数据仓库,Data Warehouse,可简写为DW或者DWH,数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持,他出于分析性报告和决策目的而创建的数据集合二、数据库的特性:面向主题:传统数据库中,最大的...
2018-08-28 01:38:20
460
原创 介绍shell的来龙去脉给你看
一、什么是shell?先理解几个概念: 1. shell(贝壳,外壳):shell是一个用c语言编写的程序,通过shell,用户可以访问linux系统内核服务,它类似dos下的command和我们熟知windows中的cmd.exe(秒懂有木有~) 2. shell既是一种命令语言又是一种程序设计语言,但是shell script是一种shell编写的脚本程序不是指shell本身。(也...
2018-08-27 21:00:29
607
原创 产品经理都看懂了之hashmap、hashtable、ConcurrentHashMap解析
一、什么是hash既然每个字都离不开hash,那我们就从hash函数说起:hash函数也称散列函数、杂凑函数(很形象了),他的作用一般用于信息安全中的加密算法,具体做法是把任意长度的输入(又叫做预映射)通过hash(散列)算法,变成固定长度的输出,一般情况下散列空间远小于输入空间,但是不同的输入可能造成相同的输出(哈希碰撞,一个关键字会映射到同一个位桶中的情况,这种情况就就叫做哈希冲突,解决...
2018-08-25 22:10:43
316
原创 消息中间件/消息总线/消息队列
一、总论:消息中间件的三大作用:系统解耦、异步处理、流量削峰。 1、异步处理:解决串行和单纯并行,但是这样做也有弊端,比如注册实际是失败了,但是已经显示注册完成! 2、系统解耦:写死接口导致的问题不用多说吧,并且导致分布式系统无法解决高并发(不准确) 3、流量消峰:也称限流,在秒杀等业务中为防止流量突增冲垮系统,会使用消息中间件使做排队处理,用降低用户体验度的方式保证系统的安全。 二、...
2018-08-25 19:53:56
798
原创 消息中间件/消息总线/消息队列
一、总论:消息中间件的三大作用:系统解耦、异步处理、流量削峰。 1、异步处理:解决串行和单纯并行,但是这样做也有弊端,比如注册实际是失败了,但是已经显示注册完成! 2、系统解耦:写死接口导致的问题不用多说吧,并且导致分布式系统无法解决高并发(不准确) 3、流量消峰:也称限流,在秒杀等业务中为防止流量突增冲垮系统,会使用消息中间件使做排队处理,用降低用户体验度的方式保证系统的安全。 二、...
2018-08-21 20:39:11
3204
原创 菜鸟进阶之路之redis理解总结
一、总述:redis是内存版的nosql数据库,因为纯内存存储,所以使用单线效率最高!(处理器是单核的情况下是这样),因为内存寻址时间相比硬盘的寻道时间来说是可以忽略不计的,但是现实中现代处理器往往是都是多核,怎么保证资源不会被浪费呢?多创建几个redis实例,并且为每个实例指定其所运行的CPU不就好啦? 二、概念描述进阶://todo1循序还要排一下2详细解释 1、热数据冷数据概念:门庭若市...
2018-08-20 21:10:56
268
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅