2010-06-23

2010-06-23  晴

  西安的天气,又闷又热。

  今天大部分时间都在调试程序,觉得在这上面花的时间太多了,由此可以看出我的代码写得很糟。应该把测试驱动开发好好学一学,最好能用到实践当中,这才能叫作指导实践!今天的效率真的很低,有几次都不想做了,可见代码有多烂。。。。。。我又看到了UML所能带给我的好处,我决定要好发研究一下结构图,状态图。

  明天的时间,大部分时间还是和代码打交道,不过我想把代码优化一下,把代码再仔细看一遍,也许能发现不少的BUG。如此一来框架清晰,易于读取,易于调试。。。。。。

  今天让我感到郁闷的就是时间的不可控。一件小小的调试结构花了我8个小时不歇息的忙碌,最终还有些小问题存在,明天一定要注意。要规定的时间内做规定的事,如果做不完,则试着去修改计划。。。。。。

  加油。做事快快快,做事认真,专心

 

首先,需要对数据进行处理,将每行数据中的买家id和商品id提取出来,作为MapReduce的输入。 Map函数的输入为一行数据,输出为(key, value)键值对,其中key为买家id,value为商品id。Reduce函数的输入为(key, list(values)),其中key为买家id,list(values)为该买家收藏的所有商品id的列表,输出为(key, str(values)),其中key为买家id,str(values)为该买家收藏的所有商品id的字符串表示,多个商品id之间用逗号分隔。 以下是MapReduce程序的代码: Mapper: ```python import sys for line in sys.stdin: line = line.strip() buyer_id, item_id, date_time = line.split() print(buyer_id + '\t' + item_id) ``` Reducer: ```python import sys prev_buyer_id = None item_ids = [] for line in sys.stdin: line = line.strip() buyer_id, item_id = line.split('\t') if prev_buyer_id and prev_buyer_id != buyer_id: print(prev_buyer_id + '\t' + ','.join(item_ids)) item_ids = [] prev_buyer_id = buyer_id item_ids.append(item_id) if prev_buyer_id: print(prev_buyer_id + '\t' + ','.join(item_ids)) ``` 使用命令行执行MapReduce程序: ```bash cat buyer_favorite1 | python mapper.py | sort | python reducer.py > output.txt ``` 输出结果: ``` 10181 1000481 20001 1001560,1001597 20042 1001368 20054 1002420,1002429,1003100,1003103,1003326,1010675 20055 1001679 20056 1002420,1002422,1003055,1003064,1003066,1003094,1003100,1003101,1003290,1003292,1003289,1010178,1010183 20064 1002422 20067 1002061 20076 1002427,1003066,1003100,1003101,1003103 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值