大数据
Yonghua Li
苟活程序员
展开
-
MapReduce 的Shuffle 过程、全排序以及数据倾斜的处理
参考文章: https://blog.csdn.net/u014374284/article/details/49205885 MapReduce shuffle过程详解 https://iclouding.github.io/2017/06/14/MapReduce%20%E5%85%A8%E6%8E%92%E5%BA%8F/ MapReduce 全排序 https://www.zhihu...原创 2018-05-20 15:56:09 · 1122 阅读 · 0 评论 -
海量数据相似度搜索,如相似的网页、图像、文章、query 等相似性搜索
参考资料: https://blog.csdn.net/icvpr/article/details/12342159 局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍 http://grunt1223.iteye.com/blog/964564 simhash与重复信息识别 http://www.07net01.com/2015/08/907327.ht...原创 2018-05-23 21:53:17 · 7012 阅读 · 0 评论 -
消息队列以及Kafka
为何使用消息队列应用解耦、可恢复性系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。顺序保证在大多使用场景下,数据处理的顺序都很重要。大部分消息队列本来就是排序的,并且能保证数据会按照特定的顺序来处理。Kafka保证一个Partition内的消息的有序性。缓冲、流量削锋流...原创 2018-11-04 15:02:55 · 329 阅读 · 0 评论 -
Flume [Bug]: org.apache.commons.cli.MissingOptionException: Missing required option: n
在使用 Apache Flume的时候,开启 agent 指令:bin/flume-ng agent -c conf -f conf/console.conf --name agent1出现报错: org.apache.commons.cli.MissingOptionException: Missing required option: n at org.apache.commons.c...原创 2019-05-04 23:01:02 · 4462 阅读 · 0 评论