- 博客(6)
- 资源 (8)
- 收藏
- 关注
原创 海量文本Simhash去重,毫秒级去重判断 | 抽屉原理
一.背景互联网上,一篇文章被抄袭来抄袭去,转载来转载去。被抄袭的文章一般不改,或者少量改动就发表了,所以判重并不是等于的关系,而是相似判断,这个判别的算法就是simhash。二.simhash计算给定一篇文章内容,利用simhash算法可以计算出一个哈希值(64位整形)。判别两篇文章是相似的方法,就是两个simhash值的距离<=3,这里距离计算采用汉明距离,也就是2个s...
2018-12-22 14:22:03 2559 1
原创 spark中job、stage、task、partition、executor概念理解以及分区数深入探究
概念1. job定义: 我们都知道,在spark rdd中,有action、transform操作,当真正触发action时,才真正执行计算,此时产生一个job任务。2. stage定义: 以shuffle为界,当在一个job任务中涉及shuffle操作时,会进行stage划分,产生一个或多个stage。3. task定义: 一个stage...
2018-12-21 00:40:07 3016
转载 Spark性能优化指南——基础篇
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算...
2018-12-30 16:54:51 127
转载 Spark性能优化指南——高级篇
前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同...
2018-12-26 00:34:43 135
转载 BitMap、BloomFilter详解以及应用场景
一、Bit-Map算法 先看看这样的一个场景:给一台普通PC,2G内存,要求处理一个包含40亿个不重复并且没有排过序的无符号的int整数,给出一个整数,问如果快速地判断这个整数是否在文件40亿个数据当中?问题思考: 40亿个int占(40亿*4)/1024/1024/1024 大概为14.9G左右,很明显内存只有2G,放不下,因此不可能将这40亿数据放到内存中计算。要快速...
2018-12-23 23:51:25 1467 1
推荐系统算法工程师——从入门到就业.txt
2019-11-26
flink on yarn 缺少依赖NoClassDefFoundError: com/sun/jersey
2019-06-06
apache-kylin-2.6.2-bin-hadoop3.tar.gz
2019-05-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人