MapReduce
爱晒太阳的猫丶
A STUDENT
展开
-
MapReduce去空去重
MapReduce清洗数据 注意:此代码虽能完美实现需求,但还有一些地方需要优化 详细优化内容请访问下方链接,更新时间2019/03/13 https://blog.csdn.net/weixin_42063239/article/details/88537897 前言 爬虫爬取的数据中会有一些数据有空值或者数据重复,想要得到规范的数据则要进行数据清洗,对保存为csv类型的数据来说可以用...原创 2019-03-07 19:42:48 · 4792 阅读 · 5 评论 -
MapReduce数据去空去重进阶版及数据乱码解决方法
前言 之前写过一篇MapReduce对CSV文件去空去重,虽然能实现功能但是还有很多地方需要改进,刚好有新爬好的智联招聘的职位信息,所以再来一遍,爬取智联招聘的代码链接https://blog.csdn.net/weixin_42063239/article/details/88524079 这里只对职位名称或职位描述字段为空的数据删除,因为爬出来的数据比较规范没有空值和重复值,可以自己人为制...原创 2019-03-13 18:14:30 · 1754 阅读 · 0 评论