自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Apache Atlas元数据 最全资料

第1章 介绍atlas 是apache下的大数据的元数据管理和数据治理平台,是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。支持对hive、storm、kafka、hbase、sqoop等进行元数据管理以及以图库的形式展示数据的血缘关系。优势(能复用哪些功能)1、搜索:能通过某个业务字段搜索此业务字段涉及到的业务线,可能是多条业务线。2、血统:数据的血缘.

2020-09-23 17:07:10 5890

原创 HDFS多目录配置

在hdfs-site.xml文件中添加多目录配置,配置名称dfs.datanode.data.dir,值写对应的目录硬盘位置,中间逗号隔开即可。配置好后需要重启集群配置才能生效。<property> <name>dfs.datanode.data.dir</name><value>file:///${hadoop.tmp.dir...

2020-03-29 00:04:09 432

原创 分布式唯一Id(雪花算法——snowflake)

给大家分享分布式唯一id——雪花算法以及雪花算法的改进版1.雪花算法介绍2.传统分布式雪花算法java版3.python版本4.Snowflake 的其他变种5.异常情况讨论6.改进版snowflake1.雪花算法介绍Snowflake 生成的 unique ID 的组成 (由高位到低位):41 bits: Timestamp (毫秒级)10 bi...

2019-12-11 10:06:12 1444

原创 最全的JedisUtils工具类

import java.util.List;import java.util.Map;import java.util.Set;//import org.apache.log4j.Logger;import redis.clients.jedis.Jedis;import redis.clients.jedis.JedisPool;import redis...

2019-03-14 14:17:17 8159 2

原创 Spark数据倾斜的完美解决

数据倾斜解决方案数据倾斜的解决,跟之前讲解的性能调优,有一点异曲同工之妙。性能调优中最有效最直接最简单的方式就是加资源加并行度,并注意RDD架构(复用同一个RDD,加上cache缓存)。相对于前面,shuffle、jvm等是次要的。6.1、原理以及现象分析6.1.1、数据倾斜怎么出现的在执行shuffle操作的时候,是按照key,来进行values的数据的输出、拉取和聚合的。同一个key的valu...

2018-05-18 16:54:08 16016 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除