![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 50
transformer_WSZ
You Only Look Once!
展开
-
MR编程注意事项
在公司集群上跑MapReduce的时候会遇到一些异常报错,主要还是我们编程时没注意极端情况,想当然的认为没有bug就能顺利运行。原创 2022-09-06 20:28:06 · 137 阅读 · 0 评论 -
Pandas入门
日常工作中经常需要数据分析,以前都是python脚本读取文件然后统计,十分麻烦。尝试了下Pandas,真香!more。原创 2022-08-19 00:52:05 · 203 阅读 · 0 评论 -
海量数据处理面试题
百度三面考到了海量数据处理题,真的是血泪教训,在此记录一下。1. 海量日志数据,提取出某日访问百度次数最多的那个IP可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。2. 有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频.原创 2021-08-11 01:30:07 · 168 阅读 · 0 评论