Spark大型电商项目实战
文章平均质量分 85
Erik_ly
主要研究大数据、AI
展开
-
4.环境搭建-hive安装
本文主要介绍在之前搭建的集群基础上安装hive的详细过程。原创 2017-02-27 11:18:15 · 2027 阅读 · 1 评论 -
44.top10活跃session之开发准备以及top10品类RDD生成
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍需求回顾和思路分析,然后将之前的代码重构,最后进行获取top10活跃session的方法。原创 2017-04-14 22:09:10 · 1660 阅读 · 0 评论 -
43.top10热门品类之使用Scala实现二次排序
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍使用Scala实现二次排序。原创 2017-04-13 23:18:55 · 2200 阅读 · 0 评论 -
42.top10热门品类之本地测试
本文为《Spark大型电商项目实战》 系列文章之一,主要进行top10热门品类模块中的本地测试环节。原创 2017-04-13 23:08:26 · 1800 阅读 · 0 评论 -
41.top10热门品类之获取top10品类并写入MySQL
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍top10热门品类模块中的第六步:获取top10品类并写入MySQL。原创 2017-04-13 22:46:05 · 1828 阅读 · 0 评论 -
40.top10热门品类之进行二次排序
本文为《Spark大型电商项目实战》 系列文章之一,主要代码实现top10热门品类模块中的第五步:二次排序。原创 2017-04-13 22:41:09 · 1258 阅读 · 0 评论 -
39.top10热门品类之自定义二次排序key
本文为《Spark大型电商项目实战》 系列文章之一,主要代码实现top10热门品类模块中的第四步:自定义二次排序key。原创 2017-04-13 22:35:38 · 1174 阅读 · 0 评论 -
38.top10热门品类之join品类与点击下单支付次数
本文为《Spark大型电商项目实战》 系列文章之一,主要代码实现top10热门品类模块中的第三步:join各品类与它的点击、下单和支付的次数。原创 2017-04-13 22:29:56 · 1545 阅读 · 0 评论 -
37.top10热门品类之计算各品类点击、下单和支付的次数
本文为《Spark大型电商项目实战》 系列文章之一,主要代码实现top10热门品类模块中的第二步:计算各品类的点击、下单和支付的次数。原创 2017-04-13 22:21:57 · 2672 阅读 · 2 评论 -
36.top10热门品类之获取session访问过的所有品类
本文为《Spark大型电商项目实战》 系列文章之一,主要代码实现top10热门品类模块中的第一步:获取符合条件的session访问过的所有品类。原创 2017-04-13 22:16:19 · 1292 阅读 · 0 评论 -
35.top10热门品类之需求回顾以及实现思路分析
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍session访问分析里的top10热门品类模块,本文主要进行需求分析和实现思路。原创 2017-04-13 21:48:12 · 1963 阅读 · 0 评论 -
34.session随机抽取之本地测试
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍session聚合统计模块的本地测试。原创 2017-03-25 17:27:07 · 1035 阅读 · 0 评论 -
33.session随机抽取之获取抽取session的明细数据
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍session随机抽取模块中的获取抽取session明细数据的实现过程。原创 2017-03-25 16:59:39 · 1863 阅读 · 0 评论 -
45.top10活跃session之计算top10品类被各sessoin点击的次数
本文为《Spark大型电商项目实战》 系列文章之一,主要代码实现top10活跃session模块中第二步计算top10品类被各session点击的次数。原创 2017-04-14 22:20:04 · 1256 阅读 · 3 评论 -
46.top10活跃session之分组取TopN算法获取top10活跃session
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍本模块的核心,也就是实现TopN算法,以获取top10活跃session。原创 2017-04-14 22:35:47 · 2141 阅读 · 0 评论 -
47.top10活跃session之本地测试以及阶段总结
本文为《Spark大型电商项目实战》 系列文章之一,主要进行本地测试,并进行阶段总结。原创 2017-04-14 23:04:29 · 1385 阅读 · 0 评论 -
9.环境搭建-MySQL及客户端安装
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在在windows主机上安装MySQL的详细过程,并且创建项目所需的数据库。原创 2017-03-01 17:16:20 · 1767 阅读 · 5 评论 -
《Spark快速大数据分析》XMind思维导图笔记
《Spark快速大数据分析》XMind思维导图笔记,内容详细,思路清晰。原创 2016-09-18 22:02:22 · 5208 阅读 · 2 评论 -
Spark单节点安装-VirtualBox-Ubuntu-14.04
在虚拟机VirtualBox的ubuntu中安装spark单节点,步骤详细,适合初学者。原创 2016-09-08 15:16:09 · 2311 阅读 · 1 评论 -
56.JVM调优之调节executor堆外内存与连接等待时长
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在实际大型Spark项目中通过调节 executor 堆外内存与连接等待时长进行 JVM 调优,从而解决一些报错现象原创 2017-04-25 16:58:13 · 1656 阅读 · 1 评论 -
55.JVM调优之原理概述以及降低cache操作的内存占比
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍性能调优的分类,重点介绍 JVM 调优的原理以及降低 cacahe 内存占比的原因和方法。原创 2017-04-25 16:25:56 · 1362 阅读 · 0 评论 -
54.性能调优之调节数据本地化等待时长
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在实际项目中通过调节数据本地化等待时长进行性能优化。原创 2017-04-24 22:38:27 · 868 阅读 · 0 评论 -
53.性能调优之使用 fastutil 优化数据格式
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在实际项目中使用 fastutil 优化数据格式的方法。原创 2017-04-24 21:40:27 · 1736 阅读 · 0 评论 -
52.性能调优之Kryo序列化
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在实际项目中使用Kryo序列化的方式进行性能优化。原创 2017-04-24 18:16:17 · 2475 阅读 · 0 评论 -
51.性能调优之广播大变量
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在实际项目中广播大变量的原因、原理和具体在代码中实现的方法。原创 2017-04-23 18:33:20 · 2991 阅读 · 0 评论 -
50.性能调优之重构RDD架构以及RDD持久化
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍重构RDD及持久化的原因及方法,并在代码中实现优化。原创 2017-04-23 12:53:58 · 4263 阅读 · 1 评论 -
49.性能调优之调节并行度
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍使用调节并行度的方式进行性能调优,重点讲解 Spark并行度原理以及如何调节并行度。原创 2017-04-21 22:46:47 · 1462 阅读 · 0 评论 -
48.性能调优之分配更多资源
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍从分配更多资源的角度进行性能调优,并且详细介绍其工作原理,从原理上分析为什么分配更多资源后会带来性能提升。原创 2017-04-21 17:49:14 · 1126 阅读 · 0 评论 -
32.session随机抽取之根据随机索引进行抽取
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍用户访问session随机抽取模块中实现根据随机索引进行抽取这一过程。原创 2017-03-25 16:23:52 · 1228 阅读 · 0 评论 -
31.session随机抽取之按时间比例随机抽取算法实现
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍用户访问session随机抽取模块中实现按时间比例随机抽取算法这一步骤。原创 2017-03-25 15:57:08 · 1989 阅读 · 0 评论 -
29.session随机抽取之实现思路分析
本文为《Spark大型电商项目实战》 系列文章之一,主要分析用户访问session随机抽取的实现思路,并创建所需的MySQL表,为后面的编码实现做准备。原创 2017-03-25 15:17:31 · 1431 阅读 · 0 评论 -
27.session访问时长和步长占比本地测试
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍之前实现的访问时长和访问步长所占比例在本地进行测试。原创 2017-03-24 11:35:46 · 2513 阅读 · 0 评论 -
16.开发JDBC辅助组件
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍JDBC辅助组件的开发与测试,JDBC辅助组件包括创建数据库连接池、单例化、执行增删改查等功能。原创 2017-03-06 20:12:48 · 1746 阅读 · 0 评论 -
8.环境搭建-spark客户端安装
文为《Spark大型电商项目实战》 系列文章之一,主要介绍在之前集群环境的基础上安装spark客户端及基于yarn的提交模式的详细步骤。原创 2017-02-27 23:00:08 · 3658 阅读 · 0 评论 -
6.环境搭建-kafka集群搭建
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在之前集群环境的基础上安装kafka的详细过程。原创 2017-02-27 12:21:42 · 1537 阅读 · 0 评论 -
5.环境搭建-zookeeper集群搭建
本文主要介绍在之前集群环境的基础上安装zookeeper的详细过程。原创 2017-02-27 11:36:27 · 1579 阅读 · 0 评论 -
3.环境搭建-Hadoop(CDH)集群搭建
本文主要是在上节CentOS集群基础上搭建Hadoop集群。原创 2017-02-25 21:38:13 · 3933 阅读 · 1 评论 -
2.环境搭建-CentOS集群搭建
本文主要介绍在 Windows 宿主机上使用 VirtualBox 搭建三节点 CentOS 集群实验环境。原创 2017-02-24 11:52:45 · 5314 阅读 · 2 评论 -
1.Spark大型电商项目实战简介
本项目主要用于互联网电商企业中,使用Spark技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行复杂的分析。原创 2017-02-24 11:30:11 · 21130 阅读 · 12 评论 -
12.会话分析-Eclipse工程搭建及工具类说明
本文主要介绍在Eclipse中搭建Maven项目,并且介绍五个常用的工具类,分别是日期时间工具类、数字工具类、参数工具类、字符串工具类和校验工具类原创 2017-03-06 11:30:59 · 2000 阅读 · 0 评论