Hadoop 入门系列二

最新推荐文章于 2024-04-23 00:00:32 发布

XiaoqiangNan

最新推荐文章于 2024-04-23 00:00:32 发布

阅读量167

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/XiaoqiangNan/article/details/85989917

版权

hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Hadoop基本概念

Hadoop是一套开源的软件平台

利用服务器集群。根据用户自定义业务逻辑，对海量数据进行分布式处理。

Hadoop的核心组件

HDFS 分布式文件系统集群文件读写

YARN 运算资源调度系统集群给mapreduce 分配硬件资源

MAPREDUCE 分布式运算编程框架不是集群

通常我们所所的hadoop并不只是这些，而是一个hadoop的生态圈。

Hadoop起源于Nutch（搜索引擎+爬虫）处理海量的资源

如何存储，如何查询，效率问题也就随之而来。

HDFS MAPREDUCE 也就应运而生。

应用案例

网站或APP点击日志流日志的数据挖掘系统！！

需求分析

Web点击流日志，包含着网站运营很重要的信息，通过日志分析，我们可以知道网站的访问量，哪个网页访问的人数最多，哪个网页最具价值，广告的转化率，访客的来源信息，访客的终端信息等。

数据来源

在页面里埋一段js程序，为页面上想要监听的标签绑定事件，只用用户点击或者移动到标签即可触发ajax 请求到后台的servlet程序，用log4j 记录事件信息形成日志文件。

Echarts：图表展示

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。