2018年12月_大数据玩家

12月

原创海量文本Simhash去重，毫秒级去重判断 | 抽屉原理

一.背景互联网上，一篇文章被抄袭来抄袭去，转载来转载去。被抄袭的文章一般不改，或者少量改动就发表了，所以判重并不是等于的关系，而是相似判断，这个判别的算法就是simhash。二.simhash计算给定一篇文章内容，利用simhash算法可以计算出一个哈希值（64位整形）。判别两篇文章是相似的方法，就是两个simhash值的距离<=3，这里距离计算采用汉明距离，也就是2个s...

2018-12-22 14:22:03 2559 1

原创 spark中job、stage、task、partition、executor概念理解以及分区数深入探究

概念1. job定义：我们都知道，在spark rdd中，有action、transform操作，当真正触发action时，才真正执行计算，此时产生一个job任务。2. stage定义：以shuffle为界，当在一个job任务中涉及shuffle操作时，会进行stage划分，产生一个或多个stage。3. task定义：一个stage...

2018-12-21 00:40:07 3016

原创 spark大数据计算：distinct去重算子实现原理

2018-12-31 13:03:22 1157

转载 Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算...

2018-12-30 16:54:51 127

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同...

2018-12-26 00:34:43 135

转载 BitMap、BloomFilter详解以及应用场景

一、Bit-Map算法先看看这样的一个场景：给一台普通PC，2G内存，要求处理一个包含40亿个不重复并且没有排过序的无符号的int整数，给出一个整数，问如果快速地判断这个整数是否在文件40亿个数据当中？问题思考： 40亿个int占（40亿*4）/1024/1024/1024 大概为14.9G左右，很明显内存只有2G，放不下，因此不可能将这40亿数据放到内存中计算。要快速...

2018-12-23 23:51:25 1467 1

kafka-manager2.0.0.2

kafka-manager编译后的安装包，直接解压安装，免编译！

2020-12-16

kafka-manager3.0.0.4安装包（编译后）

kafka-manager编译后的安装包，直接解压安装，免编译！

2020-12-16

clickhouse之zabbix监控模板（支持账号密码，配置文件可传）

2019-09-24

flink on yarn 缺少依赖NoClassDefFoundError: com/sun/jersey

flink-hadoop-compatibility_2.12-1.7.1.jar javax.ws.rs-api-2.0.1.jar jersey-common-2.27.jar jersey-core-1.19.4.jar 解决 Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfig

2019-06-06

apache-kylin-2.6.2-bin-hadoop3.tar.gz

apache-kylin-2.6.2-bin-hadoop3.tar.gz 最新版本修复版下载，修改报错 Missing required configuration "partition.assignment.strategy" which has no default value. ".

2019-05-15

Spring 加密工具包(kylin密码加密工具包)

使用方法:用java命令 java -jar encryption.jar admin

2019-04-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

bigdata_player

原创海量文本Simhash去重，毫秒级去重判断 | 抽屉原理

原创 spark中job、stage、task、partition、executor概念理解以及分区数深入探究

原创 spark大数据计算：distinct去重算子实现原理

转载 Spark性能优化指南——基础篇

转载 Spark性能优化指南——高级篇

转载 BitMap、BloomFilter详解以及应用场景

zookeeper备份恢复工具

kafka-manager2.0.0.2

kafka-manager3.0.0.4安装包（编译后）

推荐系统算法工程师——从入门到就业.txt

clickhouse之zabbix监控模板（支持账号密码，配置文件可传）

flink on yarn 缺少依赖NoClassDefFoundError: com/sun/jersey

apache-kylin-2.6.2-bin-hadoop3.tar.gz

Spring 加密工具包(kylin密码加密工具包)

空空如也

原创 海量文本Simhash去重，毫秒级去重判断 | 抽屉原理

原创 spark中job、stage、task、partition、executor概念理解以及分区数深入探究

原创 spark大数据计算：distinct去重算子实现原理

转载 Spark性能优化指南——基础篇

转载 Spark性能优化指南——高级篇

转载 BitMap、BloomFilter详解以及应用场景

zookeeper备份恢复工具

kafka-manager2.0.0.2

kafka-manager3.0.0.4安装包（编译后）

推荐系统算法工程师——从入门到就业.txt

clickhouse之zabbix监控模板（支持账号密码，配置文件可传）

flink on yarn 缺少依赖NoClassDefFoundError: com/sun/jersey

apache-kylin-2.6.2-bin-hadoop3.tar.gz

Spring 加密工具包(kylin密码加密工具包)

空空如也

原创海量文本Simhash去重，毫秒级去重判断 | 抽屉原理