![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark大型电商项目实战
文章平均质量分 85
Erik_ly
主要研究大数据、AI
展开
-
4.环境搭建-hive安装
本文主要介绍在之前搭建的集群基础上安装hive的详细过程。原创 2017-02-27 11:18:15 · 1999 阅读 · 1 评论 -
44.top10活跃session之开发准备以及top10品类RDD生成
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍需求回顾和思路分析,然后将之前的代码重构,最后进行获取top10活跃session的方法。原创 2017-04-14 22:09:10 · 1635 阅读 · 0 评论 -
43.top10热门品类之使用Scala实现二次排序
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍使用Scala实现二次排序。原创 2017-04-13 23:18:55 · 2178 阅读 · 0 评论 -
42.top10热门品类之本地测试
本文为《Spark大型电商项目实战》 系列文章之一,主要进行top10热门品类模块中的本地测试环节。原创 2017-04-13 23:08:26 · 1772 阅读 · 0 评论 -
41.top10热门品类之获取top10品类并写入MySQL
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍top10热门品类模块中的第六步:获取top10品类并写入MySQL。原创 2017-04-13 22:46:05 · 1812 阅读 · 0 评论 -
40.top10热门品类之进行二次排序
本文为《Spark大型电商项目实战》 系列文章之一,主要代码实现top10热门品类模块中的第五步:二次排序。原创 2017-04-13 22:41:09 · 1246 阅读 · 0 评论 -
39.top10热门品类之自定义二次排序key
本文为《Spark大型电商项目实战》 系列文章之一,主要代码实现top10热门品类模块中的第四步:自定义二次排序key。原创 2017-04-13 22:35:38 · 1158 阅读 · 0 评论 -
38.top10热门品类之join品类与点击下单支付次数
本文为《Spark大型电商项目实战》 系列文章之一,主要代码实现top10热门品类模块中的第三步:join各品类与它的点击、下单和支付的次数。原创 2017-04-13 22:29:56 · 1531 阅读 · 0 评论 -
37.top10热门品类之计算各品类点击、下单和支付的次数
本文为《Spark大型电商项目实战》 系列文章之一,主要代码实现top10热门品类模块中的第二步:计算各品类的点击、下单和支付的次数。原创 2017-04-13 22:21:57 · 2645 阅读 · 2 评论 -
36.top10热门品类之获取session访问过的所有品类
本文为《Spark大型电商项目实战》 系列文章之一,主要代码实现top10热门品类模块中的第一步:获取符合条件的session访问过的所有品类。原创 2017-04-13 22:16:19 · 1274 阅读 · 0 评论 -
35.top10热门品类之需求回顾以及实现思路分析
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍session访问分析里的top10热门品类模块,本文主要进行需求分析和实现思路。原创 2017-04-13 21:48:12 · 1943 阅读 · 0 评论 -
34.session随机抽取之本地测试
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍session聚合统计模块的本地测试。原创 2017-03-25 17:27:07 · 1024 阅读 · 0 评论 -
33.session随机抽取之获取抽取session的明细数据
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍session随机抽取模块中的获取抽取session明细数据的实现过程。原创 2017-03-25 16:59:39 · 1851 阅读 · 0 评论 -
45.top10活跃session之计算top10品类被各sessoin点击的次数
本文为《Spark大型电商项目实战》 系列文章之一,主要代码实现top10活跃session模块中第二步计算top10品类被各session点击的次数。原创 2017-04-14 22:20:04 · 1235 阅读 · 3 评论 -
46.top10活跃session之分组取TopN算法获取top10活跃session
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍本模块的核心,也就是实现TopN算法,以获取top10活跃session。原创 2017-04-14 22:35:47 · 2120 阅读 · 0 评论 -
47.top10活跃session之本地测试以及阶段总结
本文为《Spark大型电商项目实战》 系列文章之一,主要进行本地测试,并进行阶段总结。原创 2017-04-14 23:04:29 · 1366 阅读 · 0 评论 -
9.环境搭建-MySQL及客户端安装
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在在windows主机上安装MySQL的详细过程,并且创建项目所需的数据库。原创 2017-03-01 17:16:20 · 1745 阅读 · 5 评论 -
《Spark快速大数据分析》XMind思维导图笔记
《Spark快速大数据分析》XMind思维导图笔记,内容详细,思路清晰。原创 2016-09-18 22:02:22 · 5189 阅读 · 2 评论 -
Spark单节点安装-VirtualBox-Ubuntu-14.04
在虚拟机VirtualBox的ubuntu中安装spark单节点,步骤详细,适合初学者。原创 2016-09-08 15:16:09 · 2278 阅读 · 1 评论 -
56.JVM调优之调节executor堆外内存与连接等待时长
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在实际大型Spark项目中通过调节 executor 堆外内存与连接等待时长进行 JVM 调优,从而解决一些报错现象原创 2017-04-25 16:58:13 · 1631 阅读 · 1 评论 -
55.JVM调优之原理概述以及降低cache操作的内存占比
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍性能调优的分类,重点介绍 JVM 调优的原理以及降低 cacahe 内存占比的原因和方法。原创 2017-04-25 16:25:56 · 1339 阅读 · 0 评论 -
54.性能调优之调节数据本地化等待时长
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在实际项目中通过调节数据本地化等待时长进行性能优化。原创 2017-04-24 22:38:27 · 847 阅读 · 0 评论 -
53.性能调优之使用 fastutil 优化数据格式
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在实际项目中使用 fastutil 优化数据格式的方法。原创 2017-04-24 21:40:27 · 1677 阅读 · 0 评论 -
52.性能调优之Kryo序列化
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在实际项目中使用Kryo序列化的方式进行性能优化。原创 2017-04-24 18:16:17 · 2425 阅读 · 0 评论 -
51.性能调优之广播大变量
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在实际项目中广播大变量的原因、原理和具体在代码中实现的方法。原创 2017-04-23 18:33:20 · 2974 阅读 · 0 评论 -
50.性能调优之重构RDD架构以及RDD持久化
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍重构RDD及持久化的原因及方法,并在代码中实现优化。原创 2017-04-23 12:53:58 · 4221 阅读 · 1 评论 -
49.性能调优之调节并行度
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍使用调节并行度的方式进行性能调优,重点讲解 Spark并行度原理以及如何调节并行度。原创 2017-04-21 22:46:47 · 1443 阅读 · 0 评论 -
48.性能调优之分配更多资源
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍从分配更多资源的角度进行性能调优,并且详细介绍其工作原理,从原理上分析为什么分配更多资源后会带来性能提升。原创 2017-04-21 17:49:14 · 1108 阅读 · 0 评论 -
32.session随机抽取之根据随机索引进行抽取
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍用户访问session随机抽取模块中实现根据随机索引进行抽取这一过程。原创 2017-03-25 16:23:52 · 1217 阅读 · 0 评论 -
31.session随机抽取之按时间比例随机抽取算法实现
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍用户访问session随机抽取模块中实现按时间比例随机抽取算法这一步骤。原创 2017-03-25 15:57:08 · 1969 阅读 · 0 评论 -
29.session随机抽取之实现思路分析
本文为《Spark大型电商项目实战》 系列文章之一,主要分析用户访问session随机抽取的实现思路,并创建所需的MySQL表,为后面的编码实现做准备。原创 2017-03-25 15:17:31 · 1420 阅读 · 0 评论 -
27.session访问时长和步长占比本地测试
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍之前实现的访问时长和访问步长所占比例在本地进行测试。原创 2017-03-24 11:35:46 · 2492 阅读 · 0 评论 -
16.开发JDBC辅助组件
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍JDBC辅助组件的开发与测试,JDBC辅助组件包括创建数据库连接池、单例化、执行增删改查等功能。原创 2017-03-06 20:12:48 · 1730 阅读 · 0 评论 -
8.环境搭建-spark客户端安装
文为《Spark大型电商项目实战》 系列文章之一,主要介绍在之前集群环境的基础上安装spark客户端及基于yarn的提交模式的详细步骤。原创 2017-02-27 23:00:08 · 3604 阅读 · 0 评论 -
6.环境搭建-kafka集群搭建
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在之前集群环境的基础上安装kafka的详细过程。原创 2017-02-27 12:21:42 · 1522 阅读 · 0 评论 -
5.环境搭建-zookeeper集群搭建
本文主要介绍在之前集群环境的基础上安装zookeeper的详细过程。原创 2017-02-27 11:36:27 · 1556 阅读 · 0 评论 -
3.环境搭建-Hadoop(CDH)集群搭建
本文主要是在上节CentOS集群基础上搭建Hadoop集群。原创 2017-02-25 21:38:13 · 3910 阅读 · 1 评论 -
2.环境搭建-CentOS集群搭建
本文主要介绍在 Windows 宿主机上使用 VirtualBox 搭建三节点 CentOS 集群实验环境。原创 2017-02-24 11:52:45 · 5285 阅读 · 2 评论 -
1.Spark大型电商项目实战简介
本项目主要用于互联网电商企业中,使用Spark技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行复杂的分析。原创 2017-02-24 11:30:11 · 21066 阅读 · 12 评论 -
12.会话分析-Eclipse工程搭建及工具类说明
本文主要介绍在Eclipse中搭建Maven项目,并且介绍五个常用的工具类,分别是日期时间工具类、数字工具类、参数工具类、字符串工具类和校验工具类原创 2017-03-06 11:30:59 · 1977 阅读 · 0 评论