![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
海量数据处理
文章平均质量分 85
成程晨
2019.06-2019.08 实习于上海-蚂蚁金服-CTO线
2019.12-2020.06 实习于深圳-腾讯-TEG
2020.07-至今 工作于北京-FreeWheel-Forecast Team
展开
-
Spark优化之在大数据环境判断两个列表是否有交集
Spark优化之在大数据环境判断两个列表是否有交集原创 2022-09-24 13:58:36 · 840 阅读 · 0 评论 -
Java实现字典树处理海量数据查重
问题背景: 给定两个含海量字符串的文件file1和file2,要求找出file2中哪些字符串存在于file1。处理方法很多,这里主要实现一下字典树的方法 字典树数据结构: 废话少说,直接看图(网上盗的...) 被标红的节点表示从根节点到该节点路径上的单词依次从上至下组成的字符串已经出现过。(节点内的值不重要,重要的是节点到其孩子节点边上的值) 在我的代码里,字典树每个节点数据结构如下...原创 2019-04-12 17:18:19 · 1208 阅读 · 0 评论