Hadoop
文章平均质量分 51
sir9ll
这个作者很懒,什么都没留下…
展开
-
二次排序算法(可求不同类别下的Top N)
先给一条测试数据:math,xuzheng,54,52,86,91,42,85,75课程名,学生姓名,分数(完整的数据放在文末)需求:求出每门课程参考学生平均成绩最高的学生的信息:课程,姓名和平均分。思路:创建课程pojo类,实现WritableComparable接口,实现compareTo方法,先对课程名进行比较,相同再对分数进行比较。创建分组类继承WritableC...原创 2018-03-19 09:08:12 · 337 阅读 · 0 评论 -
MapReduce自定义输入输出组件
多个小文件合并,一个key-value,value是小文件的所有内容。套路:模仿org.apache.hadoop.mapreduce.lib.input.LineRecordReader 和org.apache.hadoop.mapreduce.lib.input.TextInputFormat把输入控件设置成自定义的控件类job.setInputFormatClass...原创 2018-03-20 08:46:47 · 723 阅读 · 0 评论 -
求倒排索引1(修改默认输入组件以记录行号)
概念: 倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法, 被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。 它是文档检索系统中最常用的数据结构求出每个关键词在哪个文档中的第几行出现了几次 输入数据格式:有两个文件data1.txt和data2.txt,文件中的内容就是普通的文本。每...原创 2018-03-25 18:45:12 · 316 阅读 · 0 评论 -
求倒排索引2
输入数据格式:有两个文件data1.txt和data2.txt,文件中的内容就是普通的文本。每个单词就是一个关键词。data1.txt的内容:zhangsan love zhoubalisi love zhengshi lisi love wujiuwangwu love zhaoliulisi zhouba zhangsan sunqidata2.txt的内容:hel...原创 2018-03-25 18:47:57 · 215 阅读 · 0 评论 -
统计用户在同一地点停留时长
描述:对同一个用户,在同一个位置,连续的多条记录进行合并合并原则:开始时间取最早的,停留时长加和字段:userID, locationID, time, duration数据样例:user_a location_a 2018-01-01 08:00:00 60user_a location_a 2018-01-01 09:00:00 60user_a locatio...原创 2018-03-25 18:49:21 · 1981 阅读 · 3 评论 -
Hadoop技术总概
Hadoop1HDFS解决海量数据的存储 一个主节点namenode,多个从节点datanode namenode:存储元数据,响应用户的操作请求。 datanode:存储数据,block64M,有三个副本。secondarynamenode作用:进行元数据的合并,备份元数据。 hdfs格式化以后会生成一个FSimage的镜像文件,用于保存元数据。 fsimage...原创 2018-04-15 12:07:41 · 747 阅读 · 0 评论