![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 84
龙骨
这个作者很懒,什么都没留下…
展开
-
经典HQL总结
Hive 执行逻辑星型模型,数据有一定冗余,但是SQL的编写相对容易雪花模型,数据冗余度很低,SQL的复杂度就很高数据主题域用户:user商品:info属性:param交易:trade订单:order优惠券:coupon回收:recycle租赁:lease维修:repair流量:traffic用户行为:ub归因:attribute直播:live供应链:scm物流:logistics采购:pur仓储:st...原创 2021-04-06 12:28:51 · 609 阅读 · 0 评论 -
RSS VIST
在k8s中需要根据其提供的平台查看内存和cpu占用信息。其中内存主要看RSS(https://juejin.cn/post/6844903923774390279)RSS是Resident Set Size(常驻内存大小)的缩写,用于表示进程使用了多少内存(RAM中的物理内存),RSS不包含已经被换出的内存。RSS包含了它所链接的动态库并且被加载到物理内存中的内存。RSS还包含栈内存和堆内存。VSZ是Virtual Memory Size(虚拟内存大小)的缩写。它包含了进程所能访问的所有内存,包含了被换原创 2022-02-25 18:48:53 · 314 阅读 · 0 评论 -
ClickHouse特性及底层存储原理
ClickHouse的特性ClickHouse是一款MPP架构的列式存储数据库,但MPP和列式存储并不是什么"稀罕"的设计。拥有类似架构的其他数据库产品也有很多,但是为什么偏偏只有ClickHouse的性能如此出众呢?ClickHouse发展至今的演进过程一共经历了四个阶段,每一次阶段演进,相比之前都进一步取其精华去其糟粕。可以说ClickHouse汲取了各家技术的精髓,将每一个细节都做到了极致。接下来将介绍ClickHouse的一些核心特性,正是这些特性形成的合力使得ClickHouse如此优秀。完转载 2021-08-31 15:02:28 · 436 阅读 · 0 评论 -
Spark中repartition & coalesce
一.spark 分区 partition的理解:spark中是以vcore级别调度task的。如果读取的是hdfs,那么有多少个block,就有多少个partition举例来说:sparksql 要读表T, 如果表T有1w个小文件,那么就有1w个partition这时候读取效率会较低。假设设置资源为 --executor-memory 2g --executor-cores 2 --num-executors 5。步骤是拿出1-10号10个小文件(也就是10个partition) 分别给5个e原创 2021-06-19 23:32:52 · 2220 阅读 · 0 评论 -
大数据知识点总结笔记 -- 应用篇
周末两天,继续整理了近些年从事大数据工作经验以及调优,本次主要针对一些Hive应用层面。一、事实表分类1. 事务型事实表事务型事实表,一般指随着业务发生不断产生的数据。特点是一旦发生不会再变化。一般比如,交易流水,操作日志,出库入库记录等等。典型案例--交易流水表:2. 周期型事实表周期型事实表,一般指随着业务发生不断产生的数据。与事务型不同的是,数据会随着业务周期性的推进而变化。比如订单,其中订单状态会周期性变化。再比如,请假、贷款申请,随着批复状态在周期性变化。.原创 2021-03-22 00:00:02 · 832 阅读 · 0 评论 -
Hive参数调优手册
Hive执行机制元数据。默认保存在derby中,一般会选择保存在mysql中。元数据包括:Database、表名、列名、列的类型,存储空间、分区、表数据所在目录等。核心组件会经过四个步骤 驱动器->编译器->优化器->执行器driver :驱动器 接收用户的sql语句给到compilercompiler:编译器 sql语句编译成一个 执行计划optimizer:优化器 对执行计划优化,提升效率Executor:执行器执行步骤,大致分为如下1. 第一阶段 sql.原创 2021-03-17 23:51:16 · 495 阅读 · 0 评论 -
大数据知识点总结笔记
周末两天,整理了近些年从事大数据工作经验以及调优,越是到深水域,越发感觉知识的无穷尽。更深切的理解 Stay Hungry,Stay Foolish。一、OLTP 和 OLAP 的区别1.联机事务处理 OLTP(on-line transaction processing)OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。2.联机分析处理 OLAP(On-Line Analytical Processing)OLAP是数据仓库系统的主要应用,支持复杂的分析操原创 2021-03-08 02:08:56 · 2039 阅读 · 0 评论 -
Redis进阶
redis的性能调优基本都在redis.conf.txt 。一、MEMORY MANAGEMENT1.redis 设置密码 requirepass mypassconfig set requirepass "123456"2.缓存过期策略.内存打满时 --清除无用和过期数据# MAXMEMORY POLICY: how Redis will select what to remove when maxmemory# is reached. You can select amo.原创 2021-03-06 00:39:10 · 142 阅读 · 1 评论 -
[ 2021春节 Flink打卡第二弹 ] -- 理论应用
广播变量基本概念• 从Client端将一份反复要使用的数据封装到广播变量中,分发到每个TaskManager的内存中存储起来将某个变量分发给每个节点上,保持每个节点都保存一份只读的缓存变量,而不是传送变量的副本给tasks• TaskManager中的所有Slot所管理的线程在执行task的时候就从TaskManager进程的内存读取数据,达到数据共享的效果。如果不使用 broadcast,则在每个节点中的每个 task 中都需要拷贝一份数据集,比较浪费内存(也就是一个节点中可能会存在多份数..原创 2021-02-22 02:56:43 · 368 阅读 · 0 评论 -
[ 2021春节 Flink打卡第一弹] -- 原理架构
Flink on Yarn的两种运行方式1. 启动一个yarn session在Yarn中初始化一个flink集群,开辟指定的资源,以后提交任务都向这里提交。这个flink集群会常驻在Yarn集群中,除非手动停止。YarnSessionClusterEntrypoint即为Flink在Yarn上的ApplicationMaster,同时也是JobManager;YarnTaskExecutorRunner负责接收 subTask,并运行,就是TaskManagera.在 YARN ...原创 2021-02-14 02:47:42 · 304 阅读 · 2 评论 -
Spark性能优化指南——高级篇
继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个ta转载 2021-02-14 00:57:49 · 318 阅读 · 0 评论 -
ElasticSearch 进阶小抄
一、ES组件介绍1.shard一个Shard就是一个Lucene实例,是一个完整的搜索引擎。主分片的数量在index创建的时候就决定好了, 副本分片的数量可以随时改变shard 分片大小确定 ? a.分片数过多会导致检索时打开比较多的文件,多台服务器之间通讯成本加大。 b. 而分片数过少会导至单个分片索引过大,所以检索速度也会慢。 c. 建议单个分片最多存储10G-20G左右的索引数据,并且尽量集群的所有节点都分片数一致,不要出现分片数不一样导致的一个实例负载过大,等待合并的时间...原创 2021-02-08 00:59:21 · 836 阅读 · 0 评论 -
Spark性能优化指南
调优概述Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。原则一:避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接转载 2021-02-05 23:14:10 · 141 阅读 · 0 评论 -
深入理解Kafka
总感觉kafka理解不透彻,结合《Kafka权威指南》写篇博客,学而时习之。一、Partition 分区 分区数和消费者数一致;每个分区都有leader 和副本follower;生产者把消息发送到leader之后,follower会去leader同步数据。1. Partition 组件介绍a. Partition 为了实现扩展性,一个非常大的topic可以分布到多个broker(即服务器)上,一个...原创 2021-02-02 23:58:43 · 373 阅读 · 0 评论 -
MR大数据去重 & MR流程
居然被问到MR,好久没写MR了,此处凭借记忆和手记整理一 、大数据去重1. 以wc举例,来说明MR的过程StringTokenizer(String str) :构造一个用来解析 str 的 StringTokenizer 对象。java 默认的分隔符是空格("")、制表符(\t)、换行符(\n)、回车符(\r)。public class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {原创 2021-01-22 22:46:41 · 851 阅读 · 0 评论 -
开放平台日志推送---kafka
解耦ASynchronize异步Synchronize 同步Kafka消息数据积压,Kafka消费能力不足怎么处理?1)如果是Kafka消费能力不足,则可以考虑增加Topic的分区数,并且同时提升消费组的消费者数量,消费者数=分区数。(两者缺一不可)2)如果是下游的数据处理不及时:提高每批次拉取的数量。批次拉取数据过少(拉取数据/处理时间<生产速度),使处理的数据小于生产的数据,也会造成数据积压。kafka安装1. 创建docker-netdocker netwo.原创 2020-12-23 01:17:48 · 928 阅读 · 0 评论 -
ceph单机版搭建与(golang)常用api
ceph线上工作心得原创 2020-09-14 18:52:01 · 1218 阅读 · 0 评论 -
Hbase 删除 -- 墓碑标记 [ type=DeleteColumn ]
一 、 Hbase删除1.新建一张表2.插入数据,并查看 ,注意name2的时间戳值更大3.此时删除name2时间戳大的那个a.scan无数据b.打上了type=DeleteColumn的标识4. flush只是删除在内存 memstore 中的数据此时进行flush操作,会删除所有还在内存中的值,但是删除标记不会被删除5.只有执行ma...原创 2019-12-03 17:21:16 · 1244 阅读 · 0 评论 -
写 shell 脚本有感
1.grep时 Binary file (standard input) matches加上 -a解决v_rowline_319=`cat ${v_logfile}_319 | grep -a "totalLine:" | awk -F ':' '{print $8}' | awk 'END {print}'`2. shell -eq和 =的区别-eq用于 INT...原创 2019-12-02 18:13:10 · 184 阅读 · 0 评论 -
FSDataOutputStream实现追加写
在用Hadoopapi时,会遇见一个情况,每次都会覆盖原来的内容 FileSystem fs=getFs(); FSDataOutputStream fSDataOutputStream= fs.create(new Path("/user/lf_by_pro/zba_dwa.db/zhanggf/a.txt")); fSDataOutputS...原创 2019-09-23 20:27:20 · 4040 阅读 · 0 评论 -
block locality
因为DataNode和RegionServer通常会部署在相同的机器上,所以会产生Locality这样的概念。HBase的Locality是通过HDFS的Block复制实现的。在复制Block时,HBase是这样选择副本的位置的:第一个副本写到本地节点上;第二个副本写到另一个机架的随机节点上;第三个副本写到相同机架的一个随机选择的其他节点上;如果还有更多的副本,这些副本将会写到集群...原创 2019-09-20 17:23:54 · 705 阅读 · 0 评论 -
hbase compaction
1.关于compactionHBase是一种Log-Structured Merge Tree架构模式,用户数据写入先写WAL,再写缓存,满足一定条件后缓存数据会执行flush操作真正落盘,形成一个数据文件HFile。随着数据写入不断增多,flush次数也会不断增多,进而HFile数据文件就会越来越多。然而,太多数据文件会导致数据查询IO次数增多,因此HBase尝试着不断对这些文件进行合并,这...原创 2019-09-20 13:48:59 · 220 阅读 · 0 评论 -
Hbase实战踩坑
写几个Hbase踩过的坑吧问题1 :truncate table 后Region个数为1,故不要truncate table。Hbase 尽力不要执行truncate table。一旦执行 region个数就会变为1,之前的预分区就没有用了。那么如果想要删除 清空数据 只能重新建表!问题2:TTL 是7天,这插入的数据有时间戳,时间戳是7天前的数据,Hb...原创 2019-09-20 11:27:46 · 955 阅读 · 0 评论 -
连接ZooKeeper客户端 protocol buffer序列化
一 连接ZooKeeper客户端 1.在执行zkCli.sh 时 遇见一个问题-bash: zkCli.sh: command not found2.引入环境变量就行了,注意 目录到binlocate zkCli.sh/opt/cloudera/parcels/CDH-5.13.1-1.cdh5.13.1.p0.2/lib/zookeeper/bin/zkCli.sh...原创 2019-09-20 11:16:37 · 270 阅读 · 0 评论