自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bigdata_player

大数据工厂

  • 博客(6)
  • 资源 (8)
  • 收藏
  • 关注

原创 海量文本Simhash去重,毫秒级去重判断 | 抽屉原理

一.背景互联网上,一篇文章被抄袭来抄袭去,转载来转载去。被抄袭的文章一般不改,或者少量改动就发表了,所以判重并不是等于的关系,而是相似判断,这个判别的算法就是simhash。二.simhash计算给定一篇文章内容,利用simhash算法可以计算出一个哈希值(64位整形)。判别两篇文章是相似的方法,就是两个simhash值的距离<=3,这里距离计算采用汉明距离,也就是2个s...

2018-12-22 14:22:03 2559 1

原创 spark中job、stage、task、partition、executor概念理解以及分区数深入探究

概念1. job定义: 我们都知道,在spark rdd中,有action、transform操作,当真正触发action时,才真正执行计算,此时产生一个job任务。2. stage定义: 以shuffle为界,当在一个job任务中涉及shuffle操作时,会进行stage划分,产生一个或多个stage。3. task定义: 一个stage...

2018-12-21 00:40:07 3016

原创 spark大数据计算:distinct去重算子实现原理

2018-12-31 13:03:22 1157

转载 Spark性能优化指南——基础篇

前言        在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算...

2018-12-30 16:54:51 127

转载 Spark性能优化指南——高级篇

前言       继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述      有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同...

2018-12-26 00:34:43 135

转载 BitMap、BloomFilter详解以及应用场景

一、Bit-Map算法    先看看这样的一个场景:给一台普通PC,2G内存,要求处理一个包含40亿个不重复并且没有排过序的无符号的int整数,给出一个整数,问如果快速地判断这个整数是否在文件40亿个数据当中?问题思考:     40亿个int占(40亿*4)/1024/1024/1024 大概为14.9G左右,很明显内存只有2G,放不下,因此不可能将这40亿数据放到内存中计算。要快速...

2018-12-23 23:51:25 1467 1

zookeeper备份恢复工具

可以指定zk node进行备份与恢复,方便使用

2021-11-05

kafka-manager2.0.0.2

kafka-manager编译后的安装包,直接解压安装,免编译!

2020-12-16

kafka-manager3.0.0.4安装包(编译后)

kafka-manager编译后的安装包,直接解压安装,免编译!

2020-12-16

推荐系统算法工程师——从入门到就业.txt

推荐系统是电商和内容型app网站生存的重要手段,是以重新组织物品分类和聚类方式形成的人工智能系统。亚马逊的商品推荐、优酷的视频推荐,都是推荐系统的应用实例。每一个具体的应用场景中推荐系统表现形式有所不同,但是最终都是以增加内容、商品曝光度为前提的。 推荐系统根据每一个用户的行为和喜好,找到这个用户未来可能喜欢和购买的商品或者是物品。它使得内容、电商两大产业减少了大量的人工编辑推荐的工作,只需要用一些简单或者深入的算法,就可以达到很好的效果。

2019-11-26

clickhouse之zabbix监控模板(支持账号密码,配置文件可传)

clickhouse之zabbix监控模板(支持账号密码,配置文件可传)

2019-09-24

flink on yarn 缺少依赖NoClassDefFoundError: com/sun/jersey

flink-hadoop-compatibility_2.12-1.7.1.jar javax.ws.rs-api-2.0.1.jar jersey-common-2.27.jar jersey-core-1.19.4.jar 解决 Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfig

2019-06-06

apache-kylin-2.6.2-bin-hadoop3.tar.gz

apache-kylin-2.6.2-bin-hadoop3.tar.gz 最新版本修复版下载, 修改 报错 Missing required configuration "partition.assignment.strategy" which has no default value. ".

2019-05-15

Spring 加密工具包(kylin密码加密工具包)

使用方法:用java命令 java -jar encryption.jar admin

2019-04-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除