离线批处理,时间延迟。
上传文件到hdfs上:
hdfs dfs -cat /后接想要查看的目录文件路径
hadoop jar WC.jar WC.MapreduceWC /hdfstest1/WCdemo.txt /指定为创建的文件夹/
想要查看我结果
执行mapReduce的程序出现一个问题:
Exception in thread “main” java.io.IOException: No input paths specified in job
看了下代码:发现没有添加hdfs路径
写的竟然是输出 outPut,真是不下心啊,怪不知道报的错误是 找不到输入路径
需求:
1 求每个用户平均停留时长。
2,将城市id和城市名称进行关联。
电信小项目:数据格式:
业务数据:电信手机用户行为日志
数据分隔符:\t
字段:用户手机号码,时间戳,城市id,城市区域id,所在区域停留时间,开始进入区域的时间,离开区域的时间,日期
D55433A437AEC8D8D3DB2BCA56E9E64392A9D93C 117210031795040 83401 8340104 301 20180503190539 20180503233517 20180503
D55433A437AEC8D8D3DB2BCA56E9E64392A9D93C 117205031830040 83401 8340104 510 20180503085547 20180503172154 20180503
D55433A437AEC8D8D3DB2BCA56E9E64392A9D93C 117210031800040 83401 8340104 37 20180503180350 20180503180350 20180503
D55433A437AEC8D8D3DB2BCA56E9E64392A9D93C 117210031820040 83401 8340104 10 20180503173254 20180503173254 20180503
47BE1E866CFC071DB19D5E1C056BE28AE24C16E7 117135031850040 83401 8340104 11 20180503224834 20180503224834 20180503
47BE1E866CFC071DB19D5E1C056BE28AE24C16E7 119560032075040 83211 8321112 0 20180503204816 20180503204816 20180503
47BE1E866CFC071DB19D5E1C056BE28AE24C16E7 119560032075040 83211 8321112 1 20180503104337 20180503104337 20180503
47BE1E866CFC071DB19D5E1C056BE28AE24C16E7 119805031860040 83204 8320412 1 20180503203340 20180503203400 20180503
47BE1E866CFC071DB19D5E1C056BE28AE24C16E7 118850031995040 83201 8320104 0 20180503100209 20180503100209 20180503
数据进入hdfs的方式:put的方式。
需求:1 求每个用户平均停留时长。
2,将城市id和城市名称进行关联。
city数据:
1101,北京市
81201,天津市
81301,石家庄市
81302,唐山市
81303,秦皇岛市
81304,邯郸市
81305,邢台市
81306,保定市
81307,张家口市
81308,承德市
81309,沧州市
81310,廊坊市
81311,衡水市
81401,太原市
81402,大同市
81403,阳泉市
81404,长治市
81405,晋城市
81406,朔州市
83401,合肥市
完整数据:百度网盘: