Hadoop基本概念
Hadoop是一套开源的软件平台
利用服务器集群。根据用户自定义业务逻辑,对海量数据进行分布式处理。
Hadoop的核心组件
HDFS 分布式文件系统 集群 文件读写
YARN 运算资源调度系统 集群 给mapreduce 分配硬件资源
MAPREDUCE 分布式运算编程框架 不是集群
通常我们所所的hadoop并不只是这些,而是一个hadoop的生态圈。
Hadoop起源于Nutch(搜索引擎+爬虫)处理海量的资源
如何存储,如何查询,效率问题也就随之而来。
HDFS MAPREDUCE 也就应运而生。
应用案例
网站或APP点击日志流日志的数据挖掘系统!!
需求分析
Web点击流日志,包含着网站运营很重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问的人数最多,哪个网页最具价值,广告的转化率,访客的来源信息,访客的终端信息等。
数据来源
在页面里埋一段js程序,为页面上想要监听的标签绑定事件,只用用户点击或者移动到标签即可触发ajax 请求到后台的servlet程序,用log4j 记录事件信息形成日志文件。
Echarts:图表展示