
大数据蘑菇云行动
大数据蘑菇云行动
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅博主任意付费专栏,享有该博主全部专栏一年阅读权限。
本专栏为虚拟产品,一经付款概不退款,敬请谅解。
段智华
本人从事大数据人工智能开发和运维工作十余年,码龄5年,深入研究Spark源码,参与王家林大咖主编出版Spark+AI系列图书5本,清华大学出版社最新出版2本新书《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版、《企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密》,《企业级AI技术内幕》新书分为盘古人工智能框架开发专题篇、机器学习案例实战篇、分布式内存管理系统Alluxio解密篇。Spark新书第二版以数据智能为灵魂,包括内核解密篇,商业案例篇,性能调优篇和Spark+AI解密篇。从2015年开始撰写博文,累计原创1059篇,博客阅读量达155万次
-
原创 大数据Spark “蘑菇云”行动第58课: 广告点击广告累计点击数分析与实现
大数据Spark “蘑菇云”行动第58课: 广告点击广告累计点击数分析与实现 作业: 使用mapWithState的方式来实现广告点击的累加功能2016-10-09 20:49:46475
0
-
原创 大数据Spark“蘑菇云”行动第56课:在线广告点击黑名单分析和实现
大数据Spark“蘑菇云”行动第56课:在线广告点击黑名单分析和实现 补充完整黑名单动态生成和过滤的核心逻辑(可以不考虑数据库操作本身)2016-09-28 21:24:09577
0
-
原创 第73课: 基于Spark 2.0.1项目 例如注册之后前10天访问我们的移动App最多的前五个人;注册之后前10天内购买商品总额排名前5为的人
大数据Spark “蘑菇云”行动第73课: 基于Spark 2.0.1项目实现之三 例如注册之后前10天访问我们的移动App最多的前五个人或者注册之后前10天内购买商品总额排名前5为的人 package com.dt.spark200import org.apache.spark.sql.SparkSessionobject UserBehaviorsAn2016-11-05 21:44:39465
0
-
原创 第43课:Spark 2.0编程实战之SparkSession、DataFrame、DataSet开发实战
第43课:Spark 2.0编程实战之SparkSession、DataFrame、DataSet开发实战 2017年5月份左右,老师个人认为需要等到Spark 2.2版本 DataSet背后会被Tungsten优化,而这里面会采用Whole-Stage Code Generation的技术,所以出错的时候定位错误和调优非常困难例如for循环翻译成了自己的方式,出错的话,错误信2016-09-13 22:02:441267
0
-
原创 大数据Spark “蘑菇云”行动第65课: 页面跳转功能代码骨架分析与实战 放scala代码
大数据Spark “蘑菇云”行动第65课: 页面跳转功能代码骨架分析与实战 页面调转类似图计算Spark GraphX中的二跳邻算法用户在页面上产生的首次点击被称为“二跳”,二跳的次数即为“二跳量”。二跳量与浏览量的比值称为页面的二跳率2016-10-25 22:25:30634
0
-
原创 大数据Spark “蘑菇云”行动补充内容第66课: 即将成为Spark未来的Spark SQL
大数据Spark “蘑菇云”行动补充内容第66课: 即将成为Spark未来的Spark SQL 1,与直接基于RDD编程,写Spark SQL代码更少、编写更快、更容易修改和理解; 2,相比于直接进行RDD编程而言,Spark SQL会自动的进行性能优化 3,更有效的使用必要的数据,提高内存的使用价值 PageJumpOnce.scalapa2016-10-26 20:53:16472
0
-
原创 第74课:基于spark 2.0.1项目测试与分析
第74课:基于spark 2.0.1项目测试与分析2016-11-07 20:58:51372
0
-
原创 大数据Spark “蘑菇云”行动第72课: 基于Spark 2.0.1项目实现之二. 实战 各种小bug修复及性能调优 200并行度调整为2个task
大数据Spark “蘑菇云”行动第72课: 基于Spark 2.0.1项目实现之二. 规律:agg前一般都进行grouBy操作 {"userID":"userID5234","Name":"zhangsan","Gender":"man","Occupation":"student"}{"userID":"userID2234","Name":"li2016-11-03 21:30:562677
0
-
原创 第67课:解密spark sql 内核Tungsten和Catalyst
第67课:解密spark sql 内核tungsten和catalyst Spark内核三大核心:基于RDD的调度系统、Catylyst解析优化引擎和Tungsten 1,tungsten 堆内 堆外内存管理On-heap、Off-heap misc.unsafe。。。磁盘上1G的数据,如果使用JVM加载进来的话3G"ABCD" 四个字符 c语言是2016-10-27 20:59:361048
0
-
原创 第53课实战操作Kafka+Flume成功! Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战
第53课实战操作Kafka+Flume成功!: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战 flume 安装在集群的worker4上,地址192.168.189.51.下载 flume http://flume.apache.org/download.html2.上传worker4 192.168.189.52016-10-04 21:07:042977
0
-
原创 大数据Spark“蘑菇云”行动第55课:在线广告点击流处理代码的分析和实现
大数据Spark“蘑菇云”行动第55课:在线广告点击流处理代码的分析和实现1 在线广告点击流处理代码的分析1 在线广告点击流处理代码的实战 1,Driver挂掉了怎么办?2,RDD挂掉怎么办?3,数据的WAL2016-09-27 22:40:33668
0
-
原创 大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置
大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 1, 对于window、updateStateByKey等DStream的状态操作,采用HDFS的checkpoint机制; 61课程:时间函数62课程:分层代码63课程 高可用性1、checkpoint 存放hdfs2、 RDD高可用性,WAL 的高可用性 配置2016-10-22 21:03:38696
0
-
原创 大数据Spark “蘑菇云”行动第39课:Spark中的Broadcast和Accumulator机制解密
大数据Spark “蘑菇云”行动第39课:Spark中的Broadcast和Accumulator机制解密 RDD: 分布式私有数据结构;Broadcast:分布式全局只读数据结构;Accumulator:分布式全局只写的数据结构;在生产环境下,我们几乎一定会自定义Accumulator1,自定义的时候可以让Accumulator非常复杂,基本上可以是任意类型的Java和S2016-09-07 20:45:15502
0
-
原创 大数据Spark “蘑菇云”行动第50课程 Spark 2.0项目概述 项目!!!大项目!!!超大型大数据项目!!!
大数据Spark “蘑菇云”行动第50课程 Spark 2.0项目概述从9月20号的大数据项目课程内容开始,所有的同学每节课必须按照课程内容动手实战,且基于课程内容写项目的学习博客;第一步:需求:数据的输入和数据的产出,大数据技术项目好比一台榨汁机,数据输入相当于例如苹果、柠檬等,然后通过榨汁机产出果汁; 第二步:数据量、处理效率、可靠性、维护性、简洁性2016-09-20 21:20:572077
0
-
原创 Spark大型项目下的Spark Streaming本质剖析(全面涵盖Spark 2.0的精髓)项目!!!大项目!!!超大型大数据项目!!!
Spark大型项目下的Spark Streaming本质剖析(全面涵盖Spark 2.0的精髓) Input Output =====> Input Table 和 Output Table Computation 这个世界上所有事情是有时间主宰的流处理数据服务中心2016-09-21 21:25:37894
0
-
原创 大数据Spark “蘑菇云”行动第52课: Spark大型项目广告点击项目数据建模 项目!!!大项目!!!超大型大数据项目!!!
大数据Spark “蘑菇云”行动第52课: Spark大型项目广告点击项目数据建模 用户广告点击行为(通过JS或者本地代码发送点击行为到服务器)-》Server接受到数据并把数据放在Flume的监控目录之下-》Flume感知到数据后会把数据放到Kafka中-》Spark Streaming感知到数据的到来并进行处理-》然后把流处理的结构交给例如HBase、Redis、MaySQL等-》通过2016-09-22 20:58:58927
0
-
原创 大数据Spark“蘑菇云”行动第53课: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战 项目!!!大项目!!!超大型大数据项目!!!
大数据Spark“蘑菇云”行动第53课: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战2016-09-23 21:35:54845
0
-
原创 大数据Spark “蘑菇云”行动第40课:Spark编程实战之aggregateByKey、reduceByKey、groupByKey、sortByKey深度解密
大数据Spark “蘑菇云”行动第40课:Spark编程实战之aggregateByKey、reduceByKey、groupByKey、sortByKey深度解密2016-09-08 21:31:521255
0
-
原创 大数据Spark “蘑菇云”行动第59课: 广告点击系统TopN热门广告分析与实现
大数据Spark “蘑菇云”行动第59课: 广告点击系统TopN热门广告分析与实现 两份全局累计数据:一份在SparkStreaming中,另外一份在MySQL计算TOPn:1、topn从数据库中计算,数据特别多,一台数据库装不完,效率不高。不采用。 2、直接从spark streaming中累加器 reducebykey2016-10-10 20:48:54500
0
-
原创 大数据Spark “蘑菇云”行动第60课: 广告点击系统广告点击趋势分析与实现
大数据Spark “蘑菇云”行动第60课: 广告点击系统广告点击趋势分析与实现2016-10-11 21:42:35600
0
-
原创 大数据Spark “蘑菇云”行动第54课: 作业讲解与广告点击实现代码.
大数据Spark “蘑菇云”行动第54课: 作业讲解与广告点击实现代码. 1 作业讲解2 广告点击代码实现2016-09-26 20:44:47690
0
-
原创 第54课作业实战成功:用phpMyAdmin等数据库可视化软件操作MySQL,并且通过远程操作MySQL;
phpMyAdmin等数据库可视化软件操作MySQL大数据Spark “蘑菇云”行动第54课: 作业讲解与广告点击实现代码.作业:用phpMyAdmin等数据库可视化软件操作MySQL,并且通过远程操作MySQL;目的:在华为的windows本地服务器上使用phpMyAdmin连接操作虚拟机vmvare的集群中的master上安装的mysql.实现图形化,可视化操作my2016-10-05 12:15:361384
0
-
原创 大数据Spark “蘑菇云”行动第62课: 广告点击系统数据库系统DAO实现
大数据Spark “蘑菇云”行动第62课: 广告点击系统数据库系统DAO实现 什么时候Hadoop比Spark快当只有一个Map-Reduce的情况且数据量特别大的时候(例如1P)Hadoop比Spark快Hadoop的Shuffle比Spark的Shuffle实现的好WordCount数据量达到例如1P的时候你会发现Spark比Hadoop慢还缺少DAO中至关重要的步2016-10-18 21:01:40564
0
-
原创 大数据Spark “蘑菇云”行动第83课:Hive架构剖析与初体验
大数据Spark “蘑菇云”行动第83课:Hive架构剖析与初体验2016-11-22 20:50:04444
0
-
原创 大数据Spark “蘑菇云”行动第84课:Hive配置和实战第一课
大数据Spark “蘑菇云”行动第84课:Hive配置和实战第一课2016-11-24 21:34:43473
0
-
原创 第85课:HWI操作实战及在eclipse中实战编码 HIVE!!HIVE实战
第85课:HWI操作实战及在eclipse中实战编码web页面地址 http://master:9999/hwi/ 在实际企业中一般会使用Hue来取代HWI的功能,Hue提供了远远比HWI更加丰富强大的功能2016-11-25 21:29:09501
0
-
原创 spark 2.0.0 开始了
spark 2.0.0 开始 SparkSession spark = SparkSession .builder() .master("Local") .appName("JavaWordCount") .getOrCreate(); 16/09/10 09:41:27 ERROR SparkContext: Erro2016-09-10 09:49:446949
2
-
原创 大数据Spark “蘑菇云”行动第64课: 页面跳转功能分析与架构 A、B、C页面之间跳转率的计算方法
大数据Spark “蘑菇云”行动第64课: 页面跳转功能分析与架构 64课程:例如京东上买东西进入某个目录 搜商品--〉手机--〉华为--〉下订单--〉付款--〉业务处理用户喜欢什么页面,从什么页面跳转到什么页面 流处理结合页面跳转,在线处理。开发安卓程序,例如微信:聊天、支付功能,应用端智能端ui展示的效果差不多。 例如spark官网 A->B->CA页面 s2016-10-23 22:17:511563
0
-
原创 热烈祝贺王家林老师又一本经典巨作<scala语言基础与开发实战> 出版上市!
热烈祝贺王家林老师又一本经典巨作 出版上市!2016-08-02 20:26:491916
0
-
原创 数据倾斜解决方案之三:使用随机Key实现双重聚合
数据倾斜解决方案之三:使用随机Key实现双重聚合本节讲解使用随机Key实现双重聚合,首先讲解什么是随机Key双重聚合;接下来讲解使用随机Key实现双重聚合解决数据倾斜的适用场景、原理分析、案例实战以及使用随机Key实现双重聚合解决数据倾斜注意事项等内容。30.4.1 什么是随机Key双重聚合?随机Key双重聚合是指:Spark分布式计算对RDD调用reduceByKey各算子进行计算,使用对Key2017-07-13 06:02:521851
3
-
原创 数据倾斜解决方案之六:使用随机数进行Join
30.7数据倾斜解决方案之六:使用随机数进行Join本节讲解使用随机数进行Join,首先讲解什么叫使用随机数进行Join来解决数据倾斜问题,然后讲解如何使用随机数?使用随机数进行Join来解决数据倾斜问题使用场景、案例实战、注意事项等内容。30.7.1什么叫使用随机数进行Join来解决数据倾斜问题? 使用随机数进行Join来解决数据倾斜问题:如果2个RDD的数据中某个Key或者某几个2017-07-13 07:29:131810
0
-
原创 windows环境下的socket nc 测试小工具nc -L -p 9999
windows环境下的socket nc 测试小工具nc -L -p 9999 在windows本地 进行测试,发送socket包到是怕人看streaming。少了这个工具还真不方便。 nc.exe网上下载,保存在C:\nc.exe;同时也保存一份放到了百度云盘,我的实验目录里面 操作步骤:1. cd C:\nc.exe2 , 启动eclipse的spark2016-09-10 20:32:079463
0
-
原创 大数据Spark “蘑菇云”行动第82课:Spark机器学习本质思考及案例初体验
大数据Spark “蘑菇云”行动第82课:Spark机器学习本质思考及案例初体验逻辑回归 a b 男还是女 垃圾邮件 合格 还是不合格线性回归 多个ALS是机器学习最重要的算法!!机器学习水平的高低:水平体现在2个方面:1,标签的选取;2,参数的调优类似数码相机: 选景、参数选取 K-means is one of th2016-11-22 20:51:00562
0
-
原创 大数据Spark “蘑菇云”行动第81课:Spark GraphX 综合案例作业讲解和源码深度剖析
大数据Spark “蘑菇云”行动第81课:Spark GraphX 综合案例作业讲解和源码深度剖析 聚合操作是分布式系统中最重要的操作 which fields should be included in the [[EdgeContext]] passed to the `sendMsg` function. If not all fields are needed,2016-11-17 21:04:17840
0
-
原创 大数据spark“蘑菇云”行动超大型项目实战第68课:spark RDD案例和spark sql案例对比实战 看电影的例子分析 某门热门电影的年龄、性别分析
大数据spark“蘑菇云”行动超大型项目实战第68课:spark RDD案例和spark sql案例对比实战2016-10-28 21:25:521292
0
-
原创 第75课:双十一背景下的大数据spark streaming本质思考和状态管理
第75课:双十一背景下的大数据spark streaming本质思考和状态管理2016-11-09 20:48:59970
1
-
原创 大数据Spark “蘑菇云”行动补充内容第69课: Spark SQL案例之分析电影评分系统.
大数据Spark “蘑菇云”行动补充内容第69课: Spark SQL案例之分析电影评分系统.昨天的作业dataframe的 算子实现 :import org.apache.spark.sql.types._import org.apache.spark.sql.Rowval PATH = "/data/moviesData/"val moviesData = sc.textF2016-10-29 20:51:221316
0
-
原创 大数据Spark “蘑菇云”行动第57课: Spark 2.0.1稳定版本解析及广告点击案例数据库和动态黑名单过滤代码
大数据Spark “蘑菇云”行动第57课: Spark 2.0.1稳定版本解析及广告点击案例数据库和动态黑名单过滤代码 1 spark 2.0.1 稳定版本解析2 数据库实现3 黑名单代码实现spark 2.0.1 2016年10月3日发布了,意味着spark 2.0 时代的到来!!但目前还不适用于生产环境!https://issues.apache.org/jira/se2016-10-07 21:47:19602
0
-
原创 大数据Spark “蘑菇云”行动第76课: Kafka+Spark Streaming+Redis项目实战
大数据Spark “蘑菇云”行动第76课: Kafka+Spark Streaming+Redis项目实战jedis插件 redis redis.clients jedis ${jedis.version} SparkSession是面向DataSet编程的,统一了SQLContex2016-11-10 21:10:21666
0
-
原创 大数据Spark “蘑菇云”行动第77课:Spark Streaming性能调优思考和实践方法,发现磁盘空间没有了,怎么办
大数据Spark “蘑菇云”行动第77课:Spark Streaming性能调优思考和实践方法Spark使用一段时间后,发现磁盘空间没有了,尤其是运行SparkStreamingSpark streaming在不断的写日志,日志将磁盘撑满了。无论磁盘空间多大,都会撑破的。有时运行一个晚上,有时运行一个上午,磁盘写满了。1、配置log最大的保存文件大小!!最多保存多少文件!2、配置每2016-11-11 20:56:50821
0