- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 spark学习(二)RDD和DAG
一、sparkRDD概念RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是spark中最基本也是最重要的概念之一。它是spark中一种基本的数据抽象,有容错机制并可以被并行操作的元素集合,具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD的知识较为庞杂,这里只能按我了解的做一些简单介绍。二、一些基本的熟悉和概念1、part...
2018-09-28 00:03:16 3287 1
原创 Spark学习(一)Spark介绍
一、什么是sparkspark是基于内存计算的大数据并行计算框架,也是hadoop中的mapreduce的替代方案,但和mapreduce又有许多不同。 Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLlib用于机器学习,Spark GraphX用...
2018-09-27 22:13:55 3489
原创 电商大数据分析平台(三)nginx配置及flume读取日志信息
一、nginx配置在本项目中nginx的作用只是接收客户端发送的事件,并将相应的session写入日志文件中,所以配置较为简单,只需要配置写入的日志文件和写入的格式1.地址配置 server { listen 80; location = /index{ ...
2018-09-16 11:18:25 1271
原创 电商大数据分析平台(二)js sdk的编写
一、简介编写一个js的sdk,用以嵌入待分析的页面中,当用户访问到该页面上时,自动调用该段js代码,获取用户浏览器上的cookie信息,拼装成一段session信息,发送到我的nginx服务器上。二、执行流程如图,用户访问页面时,首先判断用户的会话是否过期,未过期则调用pageView方法发送到nginx服务器,若过期,则判断是否第一次访问,是则创建用户标识并创建对话发送launc...
2018-09-15 17:33:45 1385
原创 电商大数据分析平台项目(一)项目框架
一、项目简介这段时间自己从网上找了一个项目课程,学着做了一个电商大数据分析平台,不过较为简陋,知识作学习用。项目环境:windows10+hadoop2.7.7+hbase2.1.0+flume1.7.0+nginx+3台linux虚拟机(三台虚拟机搭建一个hadoop完全分布式集群,同将主节点配置nginx服务器) 项目需求:对给定时间段内登陆过某网站的用户进行统计分析,具体包括不同条...
2018-09-15 16:03:09 6841
java实现的仿UNIX操作系统课设
2018-07-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人