hadoop项目 MapReduce编程 配置方法
https://blog.csdn.net/simple_start/article/details/94484818
统计每个城市UV数
每个城市有多少人(用户)访问
思路
Input
输入:读取HDFS上数据
输出:key value
行偏移量 行内容,
Map
输入:key value
行偏移量,行内容,
输出key value
城市id guid
shuffle
输入:key value
城市id guid
输出:key value
城市ID <guid1,guid2,guid2,guid1,guid3>
reduce
输入:key value
城市ID <guid1,guid2,guid2,guid1,guid3>
要干嘛:去重
使用set集合
输出: key value
城市ID UV数据
项目结构