Hadoop 入门系列 二

Hadoop基本概念

Hadoop是一套开源的软件平台

利用服务器集群。根据用户自定义业务逻辑,对海量数据进行分布式处理。

 

Hadoop的核心组件

HDFS  分布式文件系统  集群 文件读写

YARN  运算资源调度系统 集群 给mapreduce 分配硬件资源

MAPREDUCE 分布式运算编程框架 不是集群

 

通常我们所所的hadoop并不只是这些,而是一个hadoop的生态圈。

  Hadoop起源于Nutch(搜索引擎+爬虫)处理海量的资源

      如何存储,如何查询,效率问题也就随之而来。

HDFS MAPREDUCE 也就应运而生。

应用案例

  网站或APP点击日志流日志的数据挖掘系统!!

  需求分析

      Web点击流日志,包含着网站运营很重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问的人数最多,哪个网页最具价值,广告的转化率,访客的来源信息,访客的终端信息等。

数据来源

在页面里埋一段js程序,为页面上想要监听的标签绑定事件,只用用户点击或者移动到标签即可触发ajax 请求到后台的servlet程序,用log4j 记录事件信息形成日志文件。

 

Echarts:图表展示    

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值