MapReduce
文章平均质量分 63
枫火燕归林
想为自己留下点什么,记录我的工作,学习,生活
展开
-
MapReduce shuffle过程
shuffle 的过程shufle的基本概念 Shuffle的正常意思是洗牌或弄乱,它会随机地打乱参数list里的元素顺序。 Shuffle过程是MapReduce的核心。map shuffle和reduce shuffle 在MapReduce的shuffle过程,是从map对文件的输出以及reduce对文件的输入这一部分过程,根据进程的阶段我们将shuffle过程分为两个阶段map shu原创 2016-02-22 13:04:11 · 2099 阅读 · 0 评论 -
MapReduce网站基本指标编程
分析网站的基本指标网站基本指标PV:page view ,浏览量 网站各网页被浏览的总次数用户没打开一个页面就记录一次,多次打开同一页面,访问量累加UV:Unique vistor,独立访客数 一天内访问某站点的人数(以cookie为依据)一天内同一个访客只记录一次VV:Visit View,访客的访问次数 记录所有访客一天内访问网站次数当访客完成浏览,并关闭该网站所有页面时记录一原创 2016-02-23 21:51:50 · 791 阅读 · 0 评论 -
MapReduce二次排序
什么是二次排序在MapReduce操作时,我们传递的会按照key的大小进行排序,最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上,对value也进行排序。这种需求就是二次排序。二次排序思路我们都知道在MapReduce的运行中,他会根据Key来进行排序,而二次排序,则是在经过Key排序后,将Key和需要排序的Value进行组合,形成一个新的字符然后再次进行排原创 2016-02-25 12:26:53 · 747 阅读 · 0 评论 -
Hive 表加载,导出和查询
Hive表的数据加载加载本地文件到数据表$ local data local inpath '/../../.' into table table_name;加载hdfs文件到hive表$ load data inpath '/load_students' into student_load_hdfs;覆盖表中所有数据overwrite 关键字$ local data local inpath '/原创 2016-03-10 18:21:55 · 856 阅读 · 0 评论 -
日志流量分析案例
案例需求创建hive表创建用户create database db_pra;创建表create table if not exists db_log(id string ,url string ,referer string ,keyword string ,type原创 2016-03-11 22:10:36 · 882 阅读 · 0 评论