- 博客(12)
- 资源 (8)
- 收藏
- 关注
原创 第61课:SparkSQl数据加载和保存内幕深度解密实战学习笔记
第61课:SparkSQl数据加载和保存内幕深度解密实战学习笔记本期内容:1 SparkSQL加载数据2 SparkSQL保存数据3 SparkSQL对数据处理的思考 操作SparkSQL主要就是操作DataFrame,DataFrame提供了一些通用的LOAD、SAVE操作, Spark版本:大版本:主要是API变化的分支版本:增加的特性小版本:BUG
2016-03-31 23:28:42 3375
原创 第60课:使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作学习笔记
第60课:使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作学习笔记本期内容:1 使用Java实战RDD与DataFrame转换2 使用Scala实战RDD与DataFrame转换 什么是非动态转换?=> 提前已经知道了RDD具体数据的元数据信息,可以通过JavaBean或Case Class的方式提前创建DataFrame时,通过反射的方式获得元
2016-03-31 01:06:11 1449
原创 第59课:使用Java和Scala在IDE中实战RDD和DataFrame转换操作’学习笔记
第59课:使用Java和Scala在IDE中实战RDD和DataFrame转换操作’学习笔记本期内容:1 RDD与DataFrame转换的重大意义2 使用Java实战RDD与DaraFrame转换3 使用Scala实战RDD与DataFrame转换 一. RDD与DataFrame转换的重大意义在Spark中RDD可以直接转换成DataFrame。SparkCo
2016-03-29 01:37:12 2338
原创 第58课:使用Java和Scala在IDE中开发DataFrame实战学习笔记
第58课:使用Java和Scala在IDE中开发DataFrame实战学习笔记本期内容:1. 使用Java开发DataFrame实战2. 使用Scala开发DataFrame实战 自Spark1.3开始大多数SparkSQL都基于DataFrame编程。因为DataFrame高效且功能强大。可以把SparkSQl作为一个分布式查询引擎。SparkSQL一般都和Hive一起
2016-03-27 18:56:13 1999
原创 第57课:SparkSQL案例实战学习笔记
第57课:SparkSQL案例实战学习笔记本期内容:1.SparkSQL基础案例实战2.SparkSQL商业类型的案例进入Spark官网的sql-programming-guide:http://spark.apache.org/docs/latest/sql-programming-guide.html#getting-started可以看到The entry
2016-03-27 15:05:58 3900
原创 第56课:揭秘SparkSQL和DataFrame的本质学习笔记
第56课:揭秘SparkSQL和DataFrame的本质学习笔记本期内容:1. SparkSQL与DataFrame2. DataFrame与RDD3. 企业级最佳实践 一.SparkSQL与DataFrameSparkSQL之所以是除了SparkCore外最大的和最受关注的组件,原因是:A)处理一切存储介质和各种格式的数据(同时可以方便地扩展SparkSQL的功
2016-03-26 22:17:14 1349
原创 第55课:60分钟内从零起步驾驭Hive实战学习笔记
第55课:60分钟内从零起步驾驭Hive实战学习笔记本期内容:1. Hive本质解析2. Hive安装实战3. 使用Hive操作搜索引擎数据实战 SparkSQL前身是Shark,Shark强烈依赖于Hive。Spark原来没有做SQL多维度数据查询工具,后来开发了Shark,Shark依赖于Hive的解释引擎,部分在Spark中运行,还有一部分在Hadoop中运行。所以讲
2016-03-26 18:56:56 2047
原创 第16课:RDD实战学习笔记
第16课:RDD实战本期内容:1. RDD实战2. RDD的Transformation与Action3. RDD执行手动绘图 RDD的操作:1 Transformation:数据状态转换,即算子,是基于已有的RDD创建一个新的RDD2 Action:触发作业。是最后取结果的操作。因为RDD是Lazy级别的,性能非常高,从后往前回溯。如foreach/reduc
2016-03-25 00:58:38 2411
原创 第15课:RDD创建内幕彻底解密学习笔记
第15课:RDD创建内幕彻底解密学习笔记 内容:1.RDD创建的几个方式2.RDD创建实战3.RDD内幕 第一个RDD:代表了Spark应用程序输入数据的来源通过Transformation来对RDD进行各种算子的转换实现算法RDD的3种基本的创建方式1,使用程序中的集合创建RDD;2,使用本地文件系统创建RDD;3,使用HDS创建RDD其他
2016-03-20 07:59:30 1850 1
原创 第14课:spark RDD解密学习笔记
第14课:spark RDD解密学习笔记本期内容:1.RDD:基于工作集的应用抽象2.RDD内幕解密3.RDD思考 精通了RDD,学习Spark的时间大大缩短。解决问题能力大大提高,彻底把精力聚集在RDD的理解上,SparkStreaming、SparkSQL、SparkML底层封装的都是RDD。RDD是spark的基石,1) RDD提供了通用的 抽象2)
2016-03-19 02:18:20 1527
原创 第13课 spark内核架构解密学习笔记
第13课 spark内核架构解密学习笔记 2016.01.16内容:1.通过手动绘图的方式解密spark内核架构2.通过案例验证spark内核架构3.spark架构思考第一阶段:彻底精通spark第二阶段:价值千万超大型spark项目:包含所有spark知识点,编码,测试driver是运行程序时具有main方法并创建了spark con
2016-03-07 01:28:27 3110
原创 第12 课:HA下的Spark集群工作原理解密
第12 课:HA下的Spark集群工作原理解密本期内容:1.Spark高可用HA实战2. Spark集群工作原理详解1,Spark高可用HA实战Spark本身是Master/Slaves结构的,有一个中心节点(Master),Master负责Spark集群的资源调度和分配。其余的是Worker。Worker管理单个节点上的资源状况。这里说的资源主要指CPU、内存
2016-03-04 23:38:27 1905
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人