实验四:MapReduce中级实践
一、实验目的
- 通过实验掌握基本的MapReduce编程方法
- 掌握用MapReduce解决一些常见的数据处理问题,包括数据去重计数、数据排序
二、实验平台
- 操作系统:KUbuntu 20.04 focal
- JDK:openjdk version “16.0.1”
- Hadoop:3.2.2
三、实验步骤
对访问同一网站的用户去重计数
为了降低数据处理的压力,首先对输入数据进行数据清洗
f = open('1.in', 'w')
import fileinput
for line in fileinput.