![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 88
梦飞天
这个作者很懒,什么都没留下…
展开
-
第8课:彻底实战详解使用IDE开发Spark程序--集群模式运行
第8课:彻底实战详解使用IDE开发Spark程序--集群模式运行拷贝WordCount.scala生成WordCountCluster.scala。1. 将object WordCount改为object WordCountCluster2. 将conf.setMaster("local")行注释掉。在提交时再配置。3. 将文件源修改为val lines = sc.textFi原创 2016-01-30 08:41:27 · 1937 阅读 · 0 评论 -
第66课:SparkSQL下Parquet中PushDown的实现学习笔记
第66课:SparkSQL下Parquet中PushDown的实现学习笔记本期内容:1 SparkSQL下的PushDown的价值2 SparkSQL下的Parquet的PuahDown实现 Hive中也有PushDown。PushDown可以极大减少数据输入,极大的提高处理效率。SparkSQL实现了PushDown,在Parquet文件中实现PushDown具有很重原创 2016-04-07 00:08:28 · 5136 阅读 · 0 评论 -
第16课:RDD实战学习笔记
第16课:RDD实战本期内容:1. RDD实战2. RDD的Transformation与Action3. RDD执行手动绘图 RDD的操作:1 Transformation:数据状态转换,即算子,是基于已有的RDD创建一个新的RDD2 Action:触发作业。是最后取结果的操作。因为RDD是Lazy级别的,性能非常高,从后往前回溯。如foreach/reduc原创 2016-03-25 00:58:38 · 2406 阅读 · 0 评论 -
第67课:SparkSQL下案例综合实战学习笔记
第67课:SparkSQL下案例综合实战学习笔记1 SparkSQL案例分析2 通过Java和Scala实现案例 本课直接通过实战练习SparkSQL下的Join操作:先用Java编写代码: package SparkSQLByJava; import java.util.ArrayList;import java.util.List; import原创 2016-04-08 00:24:28 · 2136 阅读 · 1 评论 -
第55课:60分钟内从零起步驾驭Hive实战学习笔记
第55课:60分钟内从零起步驾驭Hive实战学习笔记本期内容:1. Hive本质解析2. Hive安装实战3. 使用Hive操作搜索引擎数据实战 SparkSQL前身是Shark,Shark强烈依赖于Hive。Spark原来没有做SQL多维度数据查询工具,后来开发了Shark,Shark依赖于Hive的解释引擎,部分在Spark中运行,还有一部分在Hadoop中运行。所以讲原创 2016-03-26 18:56:56 · 2042 阅读 · 0 评论 -
第56课:揭秘SparkSQL和DataFrame的本质学习笔记
第56课:揭秘SparkSQL和DataFrame的本质学习笔记本期内容:1. SparkSQL与DataFrame2. DataFrame与RDD3. 企业级最佳实践 一.SparkSQL与DataFrameSparkSQL之所以是除了SparkCore外最大的和最受关注的组件,原因是:A)处理一切存储介质和各种格式的数据(同时可以方便地扩展SparkSQL的功原创 2016-03-26 22:17:14 · 1342 阅读 · 0 评论 -
第68课:SparkSQL JDBC实战详解学习笔记
第68课:SparkSQL JDBC实战详解学习笔记本期内容:1 SparkSQL操作关系型数据库的意义2 SparkSQL操作关系型数据库实战 一.使用Spark通过JDBC操作数据库SparkSQL可以通过JDBC从传统关系型数据库中读写数据,读取数据后直接生成的是DataFrame,然后再加上借助于Spark内核的丰富的API来进行各种操作。不通过SparkSQL原创 2016-04-08 23:52:20 · 6089 阅读 · 1 评论 -
第57课:SparkSQL案例实战学习笔记
第57课:SparkSQL案例实战学习笔记本期内容:1.SparkSQL基础案例实战2.SparkSQL商业类型的案例进入Spark官网的sql-programming-guide:http://spark.apache.org/docs/latest/sql-programming-guide.html#getting-started可以看到The entry原创 2016-03-27 15:05:58 · 3895 阅读 · 0 评论 -
第71课:Spark SQL窗口函数解密与实战学习笔记
第71课:Spark SQL窗口函数解密与实战学习笔记本期内容:1 SparkSQL窗口函数解析2 SparkSQL窗口函数实战 窗口函数是Spark内置函数中最有价值的函数,因为很多关于分组的统计往往都使用了窗口函数。Window Aggregates (Windows)Window Aggregates (aka Windows) operate on a grou原创 2016-04-13 00:40:04 · 7922 阅读 · 0 评论 -
第58课:使用Java和Scala在IDE中开发DataFrame实战学习笔记
第58课:使用Java和Scala在IDE中开发DataFrame实战学习笔记本期内容:1. 使用Java开发DataFrame实战2. 使用Scala开发DataFrame实战 自Spark1.3开始大多数SparkSQL都基于DataFrame编程。因为DataFrame高效且功能强大。可以把SparkSQl作为一个分布式查询引擎。SparkSQL一般都和Hive一起原创 2016-03-27 18:56:13 · 1998 阅读 · 0 评论 -
第69课:SparkSQL通过Hive数据源实战学习笔记
第69课:SparkSQL通过Hive数据源实战学习笔记本期内容:1 SparkSQL操作Hive解析2 SparkSQL操作Hive实战 数据源:home/richard/slq/spark/people.txt和/home/richard/slq/spark/peoplescores.txt两个文件。people.txt的文件内容:Michael 29Andy原创 2016-04-10 00:10:19 · 9620 阅读 · 1 评论 -
第72课:Spark UDF和UDAF解密学习笔记
第72课:Spark UDF和UDAF解密学习笔记本期内容:1 Spark UDF实战2 Spark UDAF实战 UDAF=USER DEFINE AGGREGATE FUNCTION 下面直接实战编写UDF和UDAF: package SparkSQLByScalaimport org.apache.spark.sql.expressions.{Muta原创 2016-04-14 00:32:51 · 7520 阅读 · 1 评论 -
第59课:使用Java和Scala在IDE中实战RDD和DataFrame转换操作’学习笔记
第59课:使用Java和Scala在IDE中实战RDD和DataFrame转换操作’学习笔记本期内容:1 RDD与DataFrame转换的重大意义2 使用Java实战RDD与DaraFrame转换3 使用Scala实战RDD与DataFrame转换 一. RDD与DataFrame转换的重大意义在Spark中RDD可以直接转换成DataFrame。SparkCo原创 2016-03-29 01:37:12 · 2334 阅读 · 0 评论 -
第65课:SparkSQL下Parquet深入进阶学习笔记
第65课:SparkSQL下Parquet深入进阶本期内容:1 SparkSQL下的Parquet序列化2 SparkSQL下的Parquet源码解读3 SparkSQL下Parquet总结 Parquet中关键概念:1 Block2 File3 Column Chunk数据按列存储时,每一列的数据被分割成多个列块。存储逻辑视图:RowGroup原创 2016-04-03 19:24:18 · 1768 阅读 · 0 评论 -
第64课:SparkSQL下Parquet的数据切分和压缩内幕详解学习笔记
第64课:SparkSQL下Parquet的数据切分和压缩内幕详解学习笔记本期内容:1 SparkSQL下Parquet数据切分2 SparkSQL下的Parquet数据压缩 以Spark官网上的SparkSQL操作Parquet的实例进行讲解:Schema MergingLike ProtocolBuffer, Avro, and Thrift, Parquet原创 2016-04-03 19:03:23 · 6596 阅读 · 1 评论 -
第63课:Spark SQL下Parquet内幕深度解密学习笔记
第63课:Spark SQL下Parquet内幕深度解密学习笔记本期内容:1. SparkSQL下的Parquet意义再思考2. SparkSQL下的Parquet内幕解密 一.SparkSQL下的Parquet意义再思考Twitter用Parquet节省了70%存储费用。1. 如果HDFS是大数据时代分布式文件系统存储的事实标准的话,Parquet则是整个大数据时代文原创 2016-04-02 20:49:06 · 1880 阅读 · 0 评论 -
第8课:彻底实战详解使用IDE开发Spark程序
第8课:彻底实战详解使用IDE开发Spark程序1.下载安装windows下的scala-2.10.4.2.打开eclipse,新建scala project: WordCount3.修改依赖的scala版本为2.10.x。在Package Explorer中WordCount上点击右键,选择properities->scala Compilier,选择下图所示use peojec原创 2016-01-24 00:13:43 · 5858 阅读 · 1 评论 -
第10课:底实战详解使用Java开发Spark程序学习笔记(二)
Maven下的Spark配置:http://maven.outofmemory.cn/org.apache.spark,这个网站提供了Spark core、Spark Streaming使用Maven时如何配置。7.编写如下代码后点击右键run as -> java application,就可以运行了。package com.dt.spark.SparkApps.cores原创 2016-02-28 10:15:42 · 2558 阅读 · 0 评论 -
第10课:底实战详解使用Java开发Spark程序学习笔记
第10课:底实战详解使用Java开发Spark程序学习笔记本期内容:1. 为什么要使用Java?2. 使用Java开发Spark实战3. 使用Java开发Spark的Local和Cluster1. 为什么要使用Java?一. 实际在生产环境下,Spark作为数据处理引擎,需要与企业IT系统中的其他组件或功能配合使用。众所周知,现在业界处于霸主地位的开发语言是Ja原创 2016-02-27 00:00:05 · 1871 阅读 · 0 评论 -
第9课:IDEA下的spark程序开发
第9课:IDEA下的spark程序开发 1.下载IntelliJ IDEA:http://www.jetbrains.com/idea/选择社区版,要在centos上安装,需要下载.TARGZ,解压。进入IDEA目录下的bin目录下,./idea.sh启动(需要提前安装好java,并设定好JAVA_HOME)windows下需要下载.exe文原创 2016-01-30 19:55:19 · 1313 阅读 · 0 评论 -
第11课:彻底解密WordCount运行原理学习笔记
第11课:彻底解密WordCount运行原理学习笔记本期内容:1. 从数据流动视角解密WordCount,即用Spark作单词计数统计,数据到底是怎么流动的。2. 从RDD依赖关系的视角解密WordCount。Spark中的一切操作皆RDD,后面的RDD对前面的RDD有依赖关系。3. DAG与Lineage的思考。依赖关系会形成DAG。1. 从数据流动视角解密WordC原创 2016-02-28 23:26:16 · 1641 阅读 · 0 评论 -
第12 课:HA下的Spark集群工作原理解密
第12 课:HA下的Spark集群工作原理解密本期内容:1.Spark高可用HA实战2. Spark集群工作原理详解1,Spark高可用HA实战Spark本身是Master/Slaves结构的,有一个中心节点(Master),Master负责Spark集群的资源调度和分配。其余的是Worker。Worker管理单个节点上的资源状况。这里说的资源主要指CPU、内存原创 2016-03-04 23:38:27 · 1900 阅读 · 0 评论 -
第13课 spark内核架构解密学习笔记
第13课 spark内核架构解密学习笔记 2016.01.16内容:1.通过手动绘图的方式解密spark内核架构2.通过案例验证spark内核架构3.spark架构思考第一阶段:彻底精通spark第二阶段:价值千万超大型spark项目:包含所有spark知识点,编码,测试driver是运行程序时具有main方法并创建了spark con原创 2016-03-07 01:28:27 · 3103 阅读 · 0 评论 -
第60课:使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作学习笔记
第60课:使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作学习笔记本期内容:1 使用Java实战RDD与DataFrame转换2 使用Scala实战RDD与DataFrame转换 什么是非动态转换?=> 提前已经知道了RDD具体数据的元数据信息,可以通过JavaBean或Case Class的方式提前创建DataFrame时,通过反射的方式获得元原创 2016-03-31 01:06:11 · 1438 阅读 · 0 评论 -
第14课:spark RDD解密学习笔记
第14课:spark RDD解密学习笔记本期内容:1.RDD:基于工作集的应用抽象2.RDD内幕解密3.RDD思考 精通了RDD,学习Spark的时间大大缩短。解决问题能力大大提高,彻底把精力聚集在RDD的理解上,SparkStreaming、SparkSQL、SparkML底层封装的都是RDD。RDD是spark的基石,1) RDD提供了通用的 抽象2)原创 2016-03-19 02:18:20 · 1518 阅读 · 0 评论 -
第61课:SparkSQl数据加载和保存内幕深度解密实战学习笔记
第61课:SparkSQl数据加载和保存内幕深度解密实战学习笔记本期内容:1 SparkSQL加载数据2 SparkSQL保存数据3 SparkSQL对数据处理的思考 操作SparkSQL主要就是操作DataFrame,DataFrame提供了一些通用的LOAD、SAVE操作, Spark版本:大版本:主要是API变化的分支版本:增加的特性小版本:BUG原创 2016-03-31 23:28:42 · 3367 阅读 · 0 评论 -
第15课:RDD创建内幕彻底解密学习笔记
第15课:RDD创建内幕彻底解密学习笔记 内容:1.RDD创建的几个方式2.RDD创建实战3.RDD内幕 第一个RDD:代表了Spark应用程序输入数据的来源通过Transformation来对RDD进行各种算子的转换实现算法RDD的3种基本的创建方式1,使用程序中的集合创建RDD;2,使用本地文件系统创建RDD;3,使用HDS创建RDD其他原创 2016-03-20 07:59:30 · 1838 阅读 · 1 评论 -
第62课:SparkSQL下的Parquet使用最佳实践和代码实践学习笔记
第62课:SparkSQL下的Parquet使用最佳实践和代码实践学习笔记本期内容:1 SparkSQL下的Parquet使用最佳实践2 SparkSQL下的Parquet实战 一:Spark SQL下的Parquet使用最佳实践1, 过去整个业界对大数据的分析的技术栈的Pipeline一般分为以下两种方式:a) Data Source->HDFS->MR/Hive/S原创 2016-04-02 20:21:29 · 5969 阅读 · 0 评论 -
第70课:SparkSQL内置函数解密与实战学习笔记
第70课:SparkSQL内置函数解密与实战学习笔记本期内容:1 SparkSQL内置函数解析2 SparkSQL内置函数实战 SparkSQL的DataFrame引入了大量的内置函数,这些内置函数一般都有CG(CodeGeneration)功能,这样的函数在编译和执行时都会经过高度优化。问题:SparkSQL操作Hive和Hive on spark一样吗?=> 不一样原创 2016-04-11 00:08:46 · 7278 阅读 · 0 评论