![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 55
pofengliuming
这个作者很懒,什么都没留下…
展开
-
Spark 2.0内幕深度解密
Spark 2.0更新要点 1. 支持 sql 2003,支持子查询 2. DataFrame是DataSet中的一种特例,val dataFrame = DataSet[Row] SQL是没类型的,DataFrame是弱类型的,DataSet是强类型的, 所以如果使用DataSet的话在2.0是不可以用python来写代码的! 3. 第二代钨丝计划:添加了whole sta原创 2016-09-18 21:27:41 · 823 阅读 · 0 评论 -
Spark 中的Tungsten和Catalyst
spark内核的三大核心:基于RDD的调度系统、Tungsten和Catalyst解析优化引擎TungstenTungsten面对: Memory , CPU, Disk IO 和 NetWork IOspark 1.6是第一阶段面对Memory, spark 2.0的时候面对的是CPU磁盘IO和网络IO主要发生在Shuffle阶段,Shuffle有Hash, Sort, Tungsten。默认是S原创 2016-10-31 10:43:27 · 3719 阅读 · 0 评论 -
Spark SQL介绍
spark SQL会成为spark的未来,spark以后的框架、其他的框架都会架构在spark SQL的基础之上!1.大数据为什么要使用 SQL与我们已有的BI等数据分析系统集成在一块多数人都会SQL而且习惯了用SQL做数据分析开发速度快2.大数据为什么要使用 spark SQL与直接基于RDD编程,写 spark SQL代码更少,编写更快,更容易修改和理解相比于直接进行RDD编程而言原创 2016-10-30 20:18:42 · 484 阅读 · 0 评论 -
Spark源码编译
编译前Spark源码编译可以参考官方文档:http://spark.apache.org/docs/latest/building-spark.html 里面讲了用maven还有SBT编译的方法。 编译前要先下载源码,两种方式:直接到官网下载源码官网:http://spark.apache.org/downloads.html如图如示 使用git下载源码下载地址:https://gith原创 2016-11-04 00:58:13 · 445 阅读 · 0 评论 -
Spark程序监控
4040端口可以在浏览器中打开http://:4040网址,网址显示的信息: 任务和调度状态的列表 RDD大小和内存使用的统计信息 正在运行的executor的信息 环境信息 如果在同一台机器上有多个SparkContext正在运行,那么他们的端口从4040开始依次增加(4041,4042等)。在应用程序运行期间,你可以在这个Web页面获得Spark实时监控信息,如果希望在程序运行完以后查原创 2016-11-03 11:14:40 · 6944 阅读 · 0 评论 -
Spark广告点击项目技术骨架二
上节安装了flume, 下面要安装kafka, 安装kafka之前要安装zookeeper.zookeeper安装下载zookeeper-3.4.5后解压,我放到/usr/soft目录下修改/etc/environmentZOOKEEPER_HOME=/usr/soft/zookeeper-3.4.5PATH=”…:/usr/soft/zookeeper-3.4.5/bin:…”source原创 2016-09-26 00:06:46 · 501 阅读 · 0 评论 -
Spark2.0 Structured Streaming
Spark Streaming的流处理基于时间间隔的批处理 这个世界上所有事情是有时间主宰的 Structured Streaming预计在Spark 2.3的时候成熟认识Structured Streaming以前输入输出是Input Output,现在是Input Table 和 Output Table。 看名字就知道多出了一个表, 可以理解为输入的数据不直接用于计算而是先放到一个表原创 2016-09-21 22:27:42 · 1386 阅读 · 0 评论 -
Spark广告点击项目技术骨架一
技术选用用到的技术有:flume, kafka, spark.这里面其实存在生产者,消费者的关系。如下图:用户在一个网站中产生的行为就是生产者, 被服务器采集到,服务器是一个消费者,服务器保存的数据再被flume消费,这时服务器既是生产者又是消息者,组件间就是这样的生产者消费者关系链。技术搭建flume的搭建 a. 官网下载 apache-flume-1.6.0-bin.tar.gz b原创 2016-09-24 16:09:47 · 626 阅读 · 0 评论 -
Spark项目
大数据项目流程第一步:需求:数据的输入和数据的产出,大数据技术项目好比一台榨汁机,数据输入相当于例如苹果、柠檬等,然后通过榨汁机产出果汁;第二步:数据量、处理效率、可靠性、维护性、简洁性第三步:数据建模第四步:架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出的架构;第五步:我会再次思考大数据系统和企业IT系统的交互;第六步:最终确定的技术(例如Spark、Kafka、Flume、HBas原创 2016-09-20 21:30:25 · 642 阅读 · 0 评论 -
Spark流处理项目介绍
项目介绍像打开京东网站,网站会记录用户的行为,然后对行为进行分析,以便做出像推荐系统一样的功能。流程:用户广告点击行为(通过JS或者本地代码发送点击行为到服务器)-》Server接受到数据并把数据放在Flume的监控目录之下-》Flume感知到数据后会把数据放到Kafka中-》Spark Streaming感知到数据的到来并进行处理-》然后把流处理的结果交给例如HBase、Redis、MaySQL原创 2016-09-22 21:58:00 · 472 阅读 · 0 评论 -
Spark流处理项目介绍
项目介绍像打开京东网站,网站会记录用户的行为,然后对行为进行分析,以便做出像推荐系统一样的功能。流程:用户广告点击行为(通过JS或者本地代码发送点击行为到服务器)-》Server接受到数据并把数据放在Flume的监控目录之下-》Flume感知到数据后会把数据放到Kafka中-》Spark Streaming感知到数据的到来并进行处理-》然后把流处理的结果交给例如HBase、Redis、MaySQL原创 2016-09-22 21:59:35 · 412 阅读 · 0 评论 -
Spark SQL电影分析案例
用Spark SQL分析热门电影的TopN1.数据结构数据可以在此下载 https://pan.baidu.com/s/1eSNt6E2#list/path=%2FshareData 文件夹中包含三个数据文件,一个说明文件 数据结构如下users.dat 5220::M::25::7::91436 5221::F::56::1::96734 5222::M::25::12::9450原创 2016-11-02 13:38:08 · 2993 阅读 · 2 评论