Spark大型电商项目实战_Erik_ly的博客-CSDN博客

Spark大型电商项目实战

关注

文章平均质量分 85

关注数：文章数：58 文章阅读量：146596 文章收藏量：162

作者: Erik_ly

主要研究大数据、AI

展开

专栏收录文章

4.环境搭建-hive安装

本文主要介绍在之前搭建的集群基础上安装hive的详细过程。

原创 2017-02-27 11:18:15 · 2132 阅读 · 1 评论
44.top10活跃session之开发准备以及top10品类RDD生成

本文为《Spark大型电商项目实战》系列文章之一，主要介绍需求回顾和思路分析，然后将之前的代码重构，最后进行获取top10活跃session的方法。

原创 2017-04-14 22:09:10 · 1737 阅读 · 0 评论
43.top10热门品类之使用Scala实现二次排序

本文为《Spark大型电商项目实战》系列文章之一，主要介绍使用Scala实现二次排序。

原创 2017-04-13 23:18:55 · 2256 阅读 · 0 评论
42.top10热门品类之本地测试

本文为《Spark大型电商项目实战》系列文章之一，主要进行top10热门品类模块中的本地测试环节。

原创 2017-04-13 23:08:26 · 1864 阅读 · 0 评论
41.top10热门品类之获取top10品类并写入MySQL

本文为《Spark大型电商项目实战》系列文章之一，主要介绍top10热门品类模块中的第六步：获取top10品类并写入MySQL。

原创 2017-04-13 22:46:05 · 1874 阅读 · 0 评论
40.top10热门品类之进行二次排序

本文为《Spark大型电商项目实战》系列文章之一，主要代码实现top10热门品类模块中的第五步：二次排序。

原创 2017-04-13 22:41:09 · 1304 阅读 · 0 评论
39.top10热门品类之自定义二次排序key

本文为《Spark大型电商项目实战》系列文章之一，主要代码实现top10热门品类模块中的第四步：自定义二次排序key。

原创 2017-04-13 22:35:38 · 1220 阅读 · 0 评论
38.top10热门品类之join品类与点击下单支付次数

本文为《Spark大型电商项目实战》系列文章之一，主要代码实现top10热门品类模块中的第三步：join各品类与它的点击、下单和支付的次数。

原创 2017-04-13 22:29:56 · 1610 阅读 · 0 评论
37.top10热门品类之计算各品类点击、下单和支付的次数

本文为《Spark大型电商项目实战》系列文章之一，主要代码实现top10热门品类模块中的第二步：计算各品类的点击、下单和支付的次数。

原创 2017-04-13 22:21:57 · 2770 阅读 · 2 评论
36.top10热门品类之获取session访问过的所有品类

本文为《Spark大型电商项目实战》系列文章之一，主要代码实现top10热门品类模块中的第一步：获取符合条件的session访问过的所有品类。

原创 2017-04-13 22:16:19 · 1335 阅读 · 0 评论
35.top10热门品类之需求回顾以及实现思路分析

本文为《Spark大型电商项目实战》系列文章之一，主要介绍session访问分析里的top10热门品类模块，本文主要进行需求分析和实现思路。

原创 2017-04-13 21:48:12 · 2046 阅读 · 0 评论
34.session随机抽取之本地测试

本文为《Spark大型电商项目实战》系列文章之一，主要介绍session聚合统计模块的本地测试。

原创 2017-03-25 17:27:07 · 1070 阅读 · 0 评论
33.session随机抽取之获取抽取session的明细数据

本文为《Spark大型电商项目实战》系列文章之一，主要介绍session随机抽取模块中的获取抽取session明细数据的实现过程。

原创 2017-03-25 16:59:39 · 1912 阅读 · 0 评论
45.top10活跃session之计算top10品类被各sessoin点击的次数

本文为《Spark大型电商项目实战》系列文章之一，主要代码实现top10活跃session模块中第二步计算top10品类被各session点击的次数。

原创 2017-04-14 22:20:04 · 1305 阅读 · 3 评论
46.top10活跃session之分组取TopN算法获取top10活跃session

本文为《Spark大型电商项目实战》系列文章之一，主要介绍本模块的核心，也就是实现TopN算法，以获取top10活跃session。

原创 2017-04-14 22:35:47 · 2195 阅读 · 0 评论
47.top10活跃session之本地测试以及阶段总结

本文为《Spark大型电商项目实战》系列文章之一，主要进行本地测试，并进行阶段总结。

原创 2017-04-14 23:04:29 · 1439 阅读 · 0 评论
9.环境搭建-MySQL及客户端安装

本文为《Spark大型电商项目实战》系列文章之一，主要介绍在在windows主机上安装MySQL的详细过程，并且创建项目所需的数据库。

原创 2017-03-01 17:16:20 · 1847 阅读 · 5 评论
《Spark快速大数据分析》XMind思维导图笔记

《Spark快速大数据分析》XMind思维导图笔记，内容详细，思路清晰。

原创 2016-09-18 22:02:22 · 5289 阅读 · 2 评论
Spark单节点安装-VirtualBox-Ubuntu-14.04

在虚拟机VirtualBox的ubuntu中安装spark单节点，步骤详细，适合初学者。

原创 2016-09-08 15:16:09 · 2375 阅读 · 1 评论
56.JVM调优之调节executor堆外内存与连接等待时长

本文为《Spark大型电商项目实战》系列文章之一，主要介绍在实际大型Spark项目中通过调节 executor 堆外内存与连接等待时长进行 JVM 调优，从而解决一些报错现象

原创 2017-04-25 16:58:13 · 1738 阅读 · 1 评论
55.JVM调优之原理概述以及降低cache操作的内存占比

本文为《Spark大型电商项目实战》系列文章之一，主要介绍性能调优的分类，重点介绍 JVM 调优的原理以及降低 cacahe 内存占比的原因和方法。

原创 2017-04-25 16:25:56 · 1423 阅读 · 0 评论
54.性能调优之调节数据本地化等待时长

本文为《Spark大型电商项目实战》系列文章之一，主要介绍在实际项目中通过调节数据本地化等待时长进行性能优化。

原创 2017-04-24 22:38:27 · 907 阅读 · 0 评论
53.性能调优之使用 fastutil 优化数据格式

本文为《Spark大型电商项目实战》系列文章之一，主要介绍在实际项目中使用 fastutil 优化数据格式的方法。

原创 2017-04-24 21:40:27 · 1871 阅读 · 0 评论
52.性能调优之Kryo序列化

本文为《Spark大型电商项目实战》系列文章之一，主要介绍在实际项目中使用Kryo序列化的方式进行性能优化。

原创 2017-04-24 18:16:17 · 2678 阅读 · 0 评论
51.性能调优之广播大变量

本文为《Spark大型电商项目实战》系列文章之一，主要介绍在实际项目中广播大变量的原因、原理和具体在代码中实现的方法。

原创 2017-04-23 18:33:20 · 3067 阅读 · 0 评论
50.性能调优之重构RDD架构以及RDD持久化

本文为《Spark大型电商项目实战》系列文章之一，主要介绍重构RDD及持久化的原因及方法，并在代码中实现优化。

原创 2017-04-23 12:53:58 · 4331 阅读 · 1 评论
49.性能调优之调节并行度

本文为《Spark大型电商项目实战》系列文章之一，主要介绍使用调节并行度的方式进行性能调优，重点讲解 Spark并行度原理以及如何调节并行度。

原创 2017-04-21 22:46:47 · 1523 阅读 · 0 评论
48.性能调优之分配更多资源

本文为《Spark大型电商项目实战》系列文章之一，主要介绍从分配更多资源的角度进行性能调优，并且详细介绍其工作原理，从原理上分析为什么分配更多资源后会带来性能提升。

原创 2017-04-21 17:49:14 · 1177 阅读 · 0 评论
32.session随机抽取之根据随机索引进行抽取

本文为《Spark大型电商项目实战》系列文章之一，主要介绍用户访问session随机抽取模块中实现根据随机索引进行抽取这一过程。

原创 2017-03-25 16:23:52 · 1268 阅读 · 0 评论
31.session随机抽取之按时间比例随机抽取算法实现

本文为《Spark大型电商项目实战》系列文章之一，主要介绍用户访问session随机抽取模块中实现按时间比例随机抽取算法这一步骤。

原创 2017-03-25 15:57:08 · 2042 阅读 · 0 评论
29.session随机抽取之实现思路分析

本文为《Spark大型电商项目实战》系列文章之一，主要分析用户访问session随机抽取的实现思路，并创建所需的MySQL表，为后面的编码实现做准备。

原创 2017-03-25 15:17:31 · 1479 阅读 · 0 评论
27.session访问时长和步长占比本地测试

本文为《Spark大型电商项目实战》系列文章之一，主要介绍之前实现的访问时长和访问步长所占比例在本地进行测试。

原创 2017-03-24 11:35:46 · 2564 阅读 · 0 评论
16.开发JDBC辅助组件

本文为《Spark大型电商项目实战》系列文章之一，主要介绍JDBC辅助组件的开发与测试，JDBC辅助组件包括创建数据库连接池、单例化、执行增删改查等功能。

原创 2017-03-06 20:12:48 · 1794 阅读 · 0 评论
8.环境搭建-spark客户端安装

文为《Spark大型电商项目实战》系列文章之一，主要介绍在之前集群环境的基础上安装spark客户端及基于yarn的提交模式的详细步骤。

原创 2017-02-27 23:00:08 · 3750 阅读 · 0 评论
6.环境搭建-kafka集群搭建

本文为《Spark大型电商项目实战》系列文章之一，主要介绍在之前集群环境的基础上安装kafka的详细过程。

原创 2017-02-27 12:21:42 · 1577 阅读 · 0 评论
5.环境搭建-zookeeper集群搭建

本文主要介绍在之前集群环境的基础上安装zookeeper的详细过程。

原创 2017-02-27 11:36:27 · 1623 阅读 · 0 评论
3.环境搭建-Hadoop（CDH）集群搭建

本文主要是在上节CentOS集群基础上搭建Hadoop集群。

原创 2017-02-25 21:38:13 · 4023 阅读 · 1 评论
2.环境搭建-CentOS集群搭建

本文主要介绍在 Windows 宿主机上使用 VirtualBox 搭建三节点 CentOS 集群实验环境。

原创 2017-02-24 11:52:45 · 5446 阅读 · 2 评论
1.Spark大型电商项目实战简介

本项目主要用于互联网电商企业中，使用Spark技术开发的大数据统计分析平台，对电商网站的各种用户行为（访问行为、购物行为、广告点击行为等）进行复杂的分析。

原创 2017-02-24 11:30:11 · 21399 阅读 · 12 评论
12.会话分析-Eclipse工程搭建及工具类说明

本文主要介绍在Eclipse中搭建Maven项目，并且介绍五个常用的工具类，分别是日期时间工具类、数字工具类、参数工具类、字符串工具类和校验工具类

原创 2017-03-06 11:30:59 · 2067 阅读 · 0 评论

Spark大型电商项目实战

作者: Erik_ly

4.环境搭建-hive安装

44.top10活跃session之开发准备以及top10品类RDD生成

43.top10热门品类之使用Scala实现二次排序

42.top10热门品类之本地测试

41.top10热门品类之获取top10品类并写入MySQL

40.top10热门品类之进行二次排序

39.top10热门品类之自定义二次排序key

38.top10热门品类之join品类与点击下单支付次数

37.top10热门品类之计算各品类点击、下单和支付的次数

36.top10热门品类之获取session访问过的所有品类

35.top10热门品类之需求回顾以及实现思路分析

34.session随机抽取之本地测试

33.session随机抽取之获取抽取session的明细数据

45.top10活跃session之计算top10品类被各sessoin点击的次数

46.top10活跃session之分组取TopN算法获取top10活跃session

47.top10活跃session之本地测试以及阶段总结

9.环境搭建-MySQL及客户端安装

《Spark快速大数据分析》XMind思维导图笔记

Spark单节点安装-VirtualBox-Ubuntu-14.04

56.JVM调优之调节executor堆外内存与连接等待时长

55.JVM调优之原理概述以及降低cache操作的内存占比

54.性能调优之调节数据本地化等待时长

53.性能调优之使用 fastutil 优化数据格式

52.性能调优之Kryo序列化

51.性能调优之广播大变量

50.性能调优之重构RDD架构以及RDD持久化

49.性能调优之调节并行度

48.性能调优之分配更多资源

32.session随机抽取之根据随机索引进行抽取

31.session随机抽取之按时间比例随机抽取算法实现

29.session随机抽取之实现思路分析

27.session访问时长和步长占比本地测试

16.开发JDBC辅助组件

8.环境搭建-spark客户端安装

6.环境搭建-kafka集群搭建

5.环境搭建-zookeeper集群搭建

3.环境搭建-Hadoop（CDH）集群搭建

2.环境搭建-CentOS集群搭建

1.Spark大型电商项目实战简介

12.会话分析-Eclipse工程搭建及工具类说明

38.top10热门品类之join品类与点击下单支付次数