认识MapRreduce 用户行为日志分析

认识MapReduce

什么是mapperreduce
MapReduce源于Google一篇论文,是谷歌MapReuce的克隆版,它充分借鉴了分而治之的思想,将一个数据处理过程拆分为主要的Map(映射)与Reduce(归并)两步。
这样即使用户不懂分布式计算框架的内部运行机制,只要能用Map和Reduce的思想描述清楚要处理的问题。即编写map和reduce函数,就,就可以轻松的使用计算实现分布式,并在Hadoop上运行
mapreduce的特点!

开发简单
得益于MapReduce的编程模型,用户可以不用考虑进程间通信、套接字编程,无需非常高深的技巧,只需要实现一些简单的逻辑,其他的交由MapReduce计算框架去完成,大大简化了分布式程序的编程难度。
可扩展性强
同HDFS一样,当集群资源不能满足计算需求时,可以通过增加节点的方式达到线性扩展集群的目的。
容错性强
对于节点故障导致的作业失败,MapReduce计算框架会自动将作业安排到健康节点重新执行,直到任务完成,而这些,对于用户来说是透明的
还是上图吧!!!
在这里插入图片描述

MapReduce项目实战-用户流量排序

什么是用户行为日志?
用户行为日志(用户行为轨迹/流量日志)表示用户每次访问网站时,所有的行为数据(访问、浏览、搜索、点击等等)

用户分析的意义!

网站的眼睛
来自哪里、找什么?哪些页面最受欢迎?从哪里进来?
网站的神经
页面的构成方式怎么设计?链接应该怎么设计用户更方便使用?目录怎么设计用户体验更改好?
网站的大脑
分析目标,例如:根据某商品在某个城市的销售比例,分析合适的广告预算。

废话不多说上代码!!

**准备工作 **
1,伪分布式虚拟机一台!
2,hadoop + jdk 完整配置
流程
1,使用MapReduce 清洗数据,上传到hdfs
目录结构
在这里插入图片描述
flowbean类
在这里插入图片描述
mapper类
在这里插入图片描述
reduce类
在这里插入图片描述
提交类
在这里插入图片描述
在hadoop中提交任务
打包jar文件
如果有maven可以使用maven进行打包操作,如果没有可以使用eclipse只带的打包工具
在这里插入图片描述

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200815131359632.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzQ2OTM3NDI5,size_16,color_FFFFFF,t_70#pic_center
在这里插入图片描述
在这里插入图片描述
上传到liunx
在这里插入图片描述
开启hadoop服务
在这里插入图片描述
跑jar任务
在这里插入图片描述

在这里插入图片描述
后面跟的是输入输出路径

hdfs 查看
在这里插入图片描述
在这里插入图片描述
**由于我的数据没有总流量所以现在总流量是0 **

  • 总结
  • 简单的mapreduce 保留想要的数据
  • 明天把清洗的数据写到hive 里
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值