Scala+Spark:对文件进行滤重

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Topkipa/article/details/80689742

需求来源:有俩文件,里面存着很多公司信息,但是有重复的,由于数据量太大,因此,决定写个小脚本,用spark跑一下

先看一下文件格式,origin为原始公司信息数据,spider为爬虫抓取的数据


整体逻辑:

文件求并集 ==> map 对公司名做hash用以做索引 ==> 根据公司名的hash值做groupby,取首位数据 ==> 保存文件

1、主文件:



2、工具包:

processinfo:


关于company.scala中滤重:


没有更多推荐了,返回首页

私密
私密原因:
请选择设置私密原因
  • 广告
  • 抄袭
  • 版权
  • 政治
  • 色情
  • 无意义
  • 其他
其他原因:
120
出错啦
系统繁忙,请稍后再试

关闭