2019年02月_zerone-f

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 27.Spark大型电商项目-用户访问session分析-JSON数据格式讲解以及fastjson介绍

目录什么是JSON？测试FastjonTest.java本篇文章将介绍JSON格式。什么是JSON？就是一种数据格式；比如说，我们现在规定，有一个txt文本文件，用来存放一个班级的成绩；然后呢，我们规定，这个文本文件里的学生成绩的格式，是第一行，就是一行列头（姓名班级年级科目成绩），接下来，每一行就是一个学生的成绩。那么，这个文本文件内的这种信息存放的格式，其...

2019-02-27 20:36:12 256

原创 26.Spark大型电商项目-用户访问session分析-工厂模式讲解以及DAOFactory开发

目录工厂模式如果没有工厂模式，可能会出现的问题工厂设计模式测试工厂模式DAOFactory.javaTaskDAOTest.java 本篇文章将介绍工厂模式以及DAOFactory开发。工厂模式如果没有工厂模式，可能会出现的问题ITaskDAO接口和TaskDAOImpl实现类；实现类是可能会更换的；那么，如果你就使用普通的方式来创建DAO，比如ITas...

2019-02-27 17:52:21 330

原创 25.Spark大型电商项目-用户访问session分析-DAO模式讲解以及TaskDAO开发

目录DAO模式编写业务代码 Task.javaITaskDAO.javaTaskDAOImpl.java本篇文章将介绍DAO模式。DAO模式Data Access Object：数据访问对象首先，你的应用程序，肯定会有业务逻辑的代码。在三层架构的web系统中，业务逻辑的代码，就是在你的Service组件里面；在我们的spark作业中，业务逻辑代码就是在我们的sp...

2019-02-27 17:04:18 270

原创 24.Spark大型电商项目-用户访问session分析-JavaBean概念讲解

目录JavaBean：类JavaBean通常怎么用？本篇文章主要介绍JavaBean概念。JavaBean：类JavaBean，虽然就是一个类，但是是有特殊条件的一个类，不是所有的类都可以叫做JavaBean的首先，它需要有一些field，这些field，都必须用private来修饰，表示所有的field，都是私有化的，不能随意的获取和设置其次，需要给所有的field，都提...

2019-02-27 11:27:26 187

原创 Spark性能优化第八季Spark-Tungsten-sort Based

一、使用Tungsten功能1.如果想让您的程序使用Tungsten的功能，可以配置：Spark.Shuffle.Manager = tungsten-sort Spark在钨丝计划下要管理两种类型的内存存储方式：堆内和堆外。为了管理他们，所以搞了一个Page。堆外：指针直接指向数据本身。堆内：指针首先指向Object，然后通过偏移量OffSet再具体定位到数据。2. Dat...

2019-02-26 22:34:31 146

原创 22-23.Spark大型电商项目-用户访问session分析-开发JDBC辅助组件

目录编写配置文件my.properties编写常量借口Constants.java编写JDBC辅助组件JDBCHelper.java在ConfigurationManager.java中添加一个方法本篇文章将介绍JDBC辅助组件开发。编写配置文件my.propertiesjdbc.driver=com.mysql.jdbc.Driver;jdbc....

2019-02-26 22:34:12 241

原创 21.Spark大型电商项目-用户访问session分析-内部类以及匿名内部类

目录外部类内部类静态内部类和非静态内部类之间的区别主要如下1、内部类原理的区别2、创建方式的区别匿名内部类本篇文章主要介绍内部类和匿名内部类。外部类最普通的，我们平时见到的那种类，就是在一个后缀为.java的文件中，直接定义的类，比如public class Student { private String name; private int age...

2019-02-26 21:28:59 196

原创 20.Spark大型电商项目-用户访问session分析-单例设计模式

目录什么是单例设计模式单例模式的应用场景有哪几个呢？单例设计模式实例本篇文章将介绍单例设计模式。什么是单例设计模式我们自己定义的类，其实默认情况下，都是可以让外界的代码随意创建任意多个实例的但是有些时候，我们不希望外界来随意创建实例，而只是希望一个类，在整个程序运行期间，只有一个实例任何外界代码，都不能随意创建实例那么，要实现单例模式，有几个要点：1、如果不...

2019-02-26 20:22:03 471

原创 19.Spark大型电商项目-用户访问session分析-数据库连接池原理

目录普通的数据库链接数据库连接池本篇文章主要介绍数据库连接池原理。普通的数据库链接每一次java程序要在MySQL中执行一条SQL语句，那么就必须建立一个Connection对象，代表了与MySQL数据库的连接。然后在通过连接发送了你要执行的SQL语句之后，就会调用Connection.close()来关闭和销毁与数据库的连接。为什么要立即关闭呢？因为数据库的连接是一种很重的资...

2019-02-26 19:52:08 328

原创 18.Spark大型电商项目-用户访问session分析-JDBC原理介绍以及增删改查示范

目录JDBC原理JDBC测试测试代码本篇文章介绍JDBC原理介绍以及增删改查。JDBC原理JDBC测试创建测试的数据表CREATE TABLE IF NOT EXISTS `test_user`( `id` INT UNSIGNED AUTO_INCREMENT, `name` VARCHAR(100) NOT NULL, `age` IN...

2019-02-26 17:18:27 261

原创 17.Spark大型电商项目-用户访问session分析-开发配置管理组件

目录创建文件夹编写代码ConfigurationManager.javaConfigurationManagerTest.javamy.properties运行结果本篇文章主要介绍用户访问session分析-开发配置管理组件。创建文件夹在java包下创建conf包，用于存放配置管理组件类创建一个与java包一级的resources文件夹创建N...

2019-02-26 11:30:01 294

原创 16.Spark大型电商项目-用户访问session分析-Idea工程搭建以及工具类说明_

目录创建maven工程编写工具类具体代码pom.xmlDateUtils.javaNumberUtils.javaParamUtils.javaStringUtils.javaValidUtils.java本文将介绍idea创建maven工程以及编写一些常用工具类。创建maven工程参考文章：IDEA中创建maven web项目的详细部署编写工具...

2019-02-26 09:54:58 525

原创 15.Spark大型电商项目-用户访问session分析-数据表设计

目录简介MySQL表1.session_aggr_stat表，存储第一个功能，session聚合统计的结果2.session_random_extract表，存储我们的按时间比例随机抽取功能抽取出来的1000个session3.top10_category表，存储按点击、下单和支付排序出来的top10品类数据4.top10_category_session表，存储top10...

2019-02-26 09:34:00 334

原创 14.Spark大型电商项目-用户访问session分析-技术方案设计

目录需求点技术方案设计技术点本篇文章将主要介绍用户访问session技术方案设计。需求点1、按条件筛选session 2、聚合统计：统计出符合条件的session中，访问时长在1s~3s、4s~6s、7s~9s、10s~30s、30s~60s、1m~3m、3m~10m、10m~30m、30m以上各个范围内的session占比；访问步长在1~3、4~6、7~9、10~30、...

2019-02-26 09:33:49 420

原创 Spark性优化第七季Spark钨丝计划

一：“钨丝计划”产生的本质原因 1.Spark作为一个一体化多元化的（大）数据处理通用平台，性能一直是其根本性的追求之一，Spark基于内存迭代（部分基于磁盘迭代）的模型极大的满足了人们对分布式系统处理性能的渴望，但是有Spark事采用Scala+Java语言编写的,所以运行在JVM平台，当然JVM是一个绝对伟大的平台，因为JVM让整个离散的主机融为一体（网络即OS），但是JVM的死穴G...

2019-02-25 11:33:42 269

原创 Spark性能优化第六季--Shuffle性能调优

Shuffle性能调优一、Shuffle性能调优1.问题：Shuffle output file lost?真正的原因是GC导致的！！！如果GC尤其是Full GC产生通常会导致线程停止工作，此时下一个Stage的Task默认情况下会尝试重试来获取数据，一般重试3次重试时间为5s，也就是默认情况下15s内如果还是无法抓取数据的话，就会出现Shuffle output file lost的...

2019-02-25 11:33:13 225

原创 Spark性能优化第五季

性能优化数据本地性RDD的自定义(以Spark on HBase为例)一、性能优化数据本地性1.数据本地性对分布式系统的性能而言是最为重要的事情之一，程序运行本身包含代码和数据两部分，单机版本一般情况下很少考虑数据本地性的问题(因为数据在本地)，但是对于单机版本的程序而言数据本地性有PROCESS_LOCAL和NODE_LOCAL之分，所以我们还是尽量的让数据处于PROCESS_LOCAL...

2019-02-25 11:32:43 114

原创 Spark性能调优第四季

Spark性能调优第四季spark性能调优之序列化spark JVM性能调优一、spark性能调优之序列化1.之所以进行序列化，最重要的原因是内存空间有限(减少GC的压力，最大化的避免Full GC的产生，一旦产生Full GC则整个Task处于停止状态)，减少磁盘IO的压力、减少网络IO的压力；2.什么会产生必要的序列化和反序列化？发生磁盘IO和网络通信的时候需要序列化和反序...

2019-02-25 11:32:03 142

原创 Spark性能优化第二季

Spark性能优化第二季Task性能优化数据倾斜性能优化网络性能优化一、Task性能优化 1.慢任务的性能优化：可以考虑减少每个Partition处理的数据量，同时建议开启spark.speculation； 2.尽量减少Shuffle，例如我们要尽量减少groupByKey的操作，因为groupByKey要求进行网络拷贝(Shuffle)所有的数据，优先考虑使用reduc...

2019-02-25 11:31:06 120

原创 Spark性能优化第一季

Spark性能优化第一季 Spark性能优化需要思考的基本问题 CPU和Memory 并行度和Task 网络一、Spark性能优化核心基石 1.Spark是采用Master-Slaves的模式进行资源管理和任务执行的管理 a）资源管理：Master-Worker，在一台机器上可以有多个Workers； b）任务执行：Driver-Exec...

2019-02-25 11:29:43 148

原创在spark-shell中解决error: not found: value StructType/StructField/StringType问题

问题描述在Spark-shell中运行官方文档提供的例子时，出现error: not found: value StructType/StructField/StringType的错误解决方案将相关的类导入即可import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType...

2019-02-25 11:25:47 2186

原创在Ubuntu16.04下安装的一些工具记录

目录工具桌面设置工具截图工具：shutter 画图工具：kolourpaint 百度网盘：baidupcs 内存检测器：indicator-sysmonitor 浏览器：googlechrome IDE:idea,eclipse,webstome桌面设置应用放置在底部 gsettings set com.canonical.Unity.Lau...

2019-02-25 11:18:32 135

原创 13.Spark大型电商项目-用户访问session分析-需求分析

目录需求概述需求分析本篇文章主要介绍用户访问session的需求分析。需求概述1、按条件筛选session2、统计出符合条件的session中，访问时长在1s~3s、4s~6s、7s~9s、10s~30s、30s~60s、1m~3m、3m~10m、10m~30m、30m以上各个范围内的session占比；访问步长在1~3、4~6、7~9、10~30、30~60、60以上各个...

2019-02-25 11:14:22 305

原创 12.Spark大型电商项目-用户访问session分析-基础数据结构以及大数据平台架构介绍

目录使用到的表分析Hive表user_visit_action表user_info表MySQL表task表模块的业务逻辑说明本篇文章将主要介绍用户访问session分析模块中的基础数据结构。使用到的表分析Hive表user_visit_action表date：日期，代表这个用户点击行为是在哪一天发生的 user_id：代表这个点击行为是哪一个用...

2019-02-25 10:39:15 564

原创 11.Spark大型电商项目-用户访问session分析-模块介绍

目录主要内容模块的目标对用户访问session进行分析在实际企业项目中的使用架构用户访问session介绍本篇文章主要介绍用户访问session的模块简介主要内容1 对用户访问session进行分析 2 JDBC辅助类封装 3 用户访问session聚合统计 4 按时间比例随机抽取session 5 获取点击、下单和支付次数排名前10的品类 6 获取top...

2019-02-24 21:02:27 386

原创 10.Spark大型电商项目-大实时数据采集流程介绍

2019-02-24 20:10:00 701

原创 9.Spark大型电商项目-离线日志采集流程介绍

本篇文章主要是介绍离线日志采集系统。

2019-02-24 17:11:44 481 1

原创 8.Spark大型电商项目-大数据环境搭建之Spark集群安装

目录实验环境安装spark配置文件搭建集群本文将主要介绍spark集群的安装。实验环境Spark版本：spark-2.3.0-bin-without-hadoop.tgz可以访问官网下载自己需要的spark版本：http://spark.apache.org/ 安装spark将spark安装到目录/usr/local/下解压安装包sudo...

2019-02-24 16:23:35 374

原创 7.Spark大型电商项目-大数据环境搭建之flume安装

目录实验环境安装flume配置文件创建需要的文件夹本文将主要介绍flume安装。实验环境flume版本：apache-flume-1.9.0可以根据自己的需要到官网下载自己需要的版本：http://flume.apache.org/安装flume将flume安装到Master目录/usr/local/下解压sudo tar apache-fl...

2019-02-23 21:05:46 2332 5

原创 6.Spark大型电商项目-大数据环境搭建之kafka集群

目录实验环境安装scala安装kafka搭建kafka集群启动kafka集群本文主要介绍安装kafka集群实验环境scala版本：scala-2.11.6kafka版本： kafka_2.11-2.1.1.tgzkafka可以到官网下载自己需要的版本：http://kafka.apache.org/安装scala在三台机器上分别用一下命令行安装...

2019-02-23 20:46:28 1891

原创 5.Spark大型电商项目-大数据环境搭建之zookeeper集群

目录实验环境安装zookeeper修改配置文件设置zookeeper节点标识搭建zookeeper集群启动zookeeper集群本文将主要介绍在之前集群环境的基础上安装zookeeper的详细过程。实验环境zookeeper版本：zookeeper-3.4.10可以到官网下载自己需要的版本：https://zookeeper.apache....

2019-02-23 20:06:28 302

原创 4.Spark大型电商项目-大数据环境搭建之数据仓库hive安装

目录实验环境安装hive安装mysql配置文件测试hive是否安装成功本文主要介绍在之前搭建的集群基础上安装hive的详细过程。实验环境hive版本：hive 3.1.1版本可以从hive官网上下载需要的版本：https://hive.apache.org/downloads.html安装hive本人安装包是下载到了/下载这个文件夹下加压缩到/u...

2019-02-23 17:42:08 489

转载 3.Spark大型电商项目-大数据环境搭建之-Hadoop（CDH）集群搭建

目录实验环境安装 Hadoop配置文件在另外两台虚拟机上搭建hadoop启动hdfs集群启动yarn集群（由于本人的设备局限，hadoop环境是项目之前就搭建好的，将本文转过来是保持博文的完整性。）转载地址：3.环境搭建-Hadoop（CDH）集群搭建本文主要是在上节CentOS集群基础上搭建Hadoop集群。实验环境 *本实验项目所需软件均可在百...

2019-02-23 16:05:26 409

转载 2.Spark大型电商项目-大数据环境搭建之CentOS 6.4集群

目录实验环境创建虚拟机安装CentOS设置ip获取动态ip设置静态ip配置hosts使用Xshell连接虚拟机关闭防火墙安装jdk 安装三节点虚拟机配置集群Ssh免密码登陆（由于本人的设备局限，并未使用这篇博文的方法搭建Linux集群，将本文转过来是保持博文的完整性。）转载地址：2.环境搭建-CentOS集群搭建本文主要介绍在 Wi...

2019-02-23 11:26:38 266

原创 1.Spark大型电商项目-电商用户行为分析简介

目录项目简介项目模块用户访问session分析页面单跳转化率统计热门商品离线统计广告流量实时统计环境搭建项目简介本项目主要用于互联网电商企业中，使用Spark技术开发的大数据统计分析平台，对电商网站的各种用户行为（访问行为、购物行为、广告点击行为等）进行复杂的分析。用统计分析出来的数据，辅助公司中的PM（产品经理）、数据分析师以及管理人员分析现有产品的情况，并根...

2019-02-23 10:42:23 940

原创解决在命令行中出现/usr/local/hadoop/libexec/hadoop-functions.sh: 行 1185: dirname: 未找到命令

问题描述：在部署了hadoop后，进入到终端和输入source ~/.bashrc后出现hadoop已经安装了很久了，都没有遇到这样的问题，突然出现，有点猝不及防。问题分析与排查：1.出现这个问题的时候，我第一反应是我自己在配置其他软件的环境变量的时候修改了配置文件，在不注意的情况下输入了其他的字符，导致文件的中的变量有所变化，但是我打开环境变量的配置文件的时候，没有检查到...

2019-02-22 19:43:52 16795 5

转载如何将自己的代码放到github上

喜欢的同学可以看一下原文，讲得更加详细哦原文地址：http://www.cnblogs.com/cxk1995/p/5800196.html 首先你需要一个github账号，所有还没有的话先去注册吧！https://github.com/我们使用git需要先安装git工具，这里给出下载地址，下载后一路直接安装即可：https://git-for-windows.github...

2019-02-21 15:11:24 736

转载第８2课：案例动手实战并在电光石火间理解其工作原理 Ok-2

内容1、Spark Streaming 动手实战演示 2、闪电般理解Spark Streaming原理 3、案例动手实战并在电光石火间理解其工作原理在当今大数据时代为数据流处理，日常工作、生活中数据来源很多不同的地方。例如：工业时代的汽车制造、监控设备、工业设备会产生很多源数据；信息时代的电商网站、日志服务器、社交网络、金融交易系统、黑客攻击、垃圾邮件、交通监控等；通信时代的手机、平板...

2019-02-20 15:18:18 228

goods_detail.txt

最近学习安卓逆向，接触一下TB系的APP，了解大厂APP是做数据安全的，这篇文章主要介绍某宝APP的签名参数x-sign的HOOK过程，当然，其他的参数也是可以HOOK的。本文只用于学习交流，请勿他用。商品详情信息

2020-11-27

goods_ids.txt

最近学习安卓逆向，接触一下TB系的APP，了解大厂APP是做数据安全的，这篇文章主要介绍某宝APP的签名参数x-sign的HOOK过程，当然，其他的参数也是可以HOOK的。本文只用于学习交流，请勿他用。采集的商品id。

2020-11-27

user_base_info.json

Spark大型电商项目-用户活跃度分析模块-数据

2019-08-05

user_action_log.json

Spark大型电商项目-用户活跃度分析模块-数据

2019-08-05

area_top3_product.sql

MySQL中 area_top3_product表，task_id、area、area_level、product_id、city_names、click_count、product_name、product_status

2019-04-01

city_info.sql

各区域热门商品统计数据设计表，使用Spark SQL从MySQL中查询出来城市信息（city_id、city_name、area），用户访问行为数据要跟城市信息进行join，city_id、city_name、area、product_id，RDD，转换成DataFrame，注册成一个临时表

2019-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人