![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 89
挑战不可能,努力
这个作者很懒,什么都没留下…
展开
-
flink solt概念详解
同一个TaskManager上的所有slot都只是做了内存分离,没有做CPU隔离。原创 2023-02-13 15:22:24 · 1373 阅读 · 0 评论 -
Kafka 事务机制
Kafka 是一个高度可扩展的分布式消息系统,在海量数据处理生态中占据着重要的地位。数据处理的一个关键特性是数据的一致性。具体到 Kafka 的领域中,也就是生产者生产的数据和消费者消费的数据之间一对一的一致性。在各种类型的失败普遍存在的分布式系统环境下,保证业务层面一个整体的消息集合被原子的发布和恰好一次处理,是数据一致性在 Kafka 生态系统的实际要求。本文介绍了 Kafka 生态中的事务机制的概念和流程。Kafka 事务机制的概念Kafka 从 0.11 版本开始支持了事务机制。Ka转载 2020-08-20 15:19:11 · 2131 阅读 · 0 评论 -
数据模型设计
如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务于业务部⻔的运营。但是在数据中台构建之前,分析师经常发现⾃⼰没有可以复⽤的数据,不得不使⽤原始数据进⾏清洗、加⼯、计算指标。由于他们⼤多是⾮技术专业出⾝,写的SQL质量⽐较差,甚⾄⻅过5层以上的嵌套。这种SQL对资源消耗⾮常⼤,会造成队列阻塞,影响其他数仓任务,会引起数据开发的不满。数据开发会要求收回分析师的原转载 2020-08-19 11:40:08 · 4125 阅读 · 0 评论 -
消息队列pulsar和存储系统bookkeeper和SQL查询引擎Presto
pulsar和kafka最显而易见的区别是,pulsar支持多租户,有着资产和命名空间的概念,资产代表系统里的租户。假设有一个Pulsar集群用于支持多个应用程序(就像Yahoo那样),集群里的每个资产可以代表一个组织的团队、一个核心的功能或一个产品线。一个资产可以包含多个命名空间,一个命名空间可以包含任意个主题。分区:pulsar和kafka一样都支持主题的多分区。持久化:kafka文件存储,pulsar采用Apache BookKeeper存储。这也是pulsar的一个显著优点,k.原创 2020-08-13 11:06:09 · 1564 阅读 · 0 评论 -
kafka中的ISR、AR又代表什么?ISR伸缩又是什么?
分区中的所有副本统称为AR(Assigned Repllicas)。所有与leader副本保持一定程度同步的副本(包括Leader)组成ISR(In-Sync Replicas),ISR集合是AR集合中的一个子集。消息会先发送到leader副本,然后follower副本才能从leader副本中拉取消息进行同步,同步期间内follower副本相对于leader副本而言会有一定程度的滞后。前面所说的“一定程度”是指可以忍受的滞后范围,这个范围可以通过参数进行配置。与leader副本同步滞后过多的副本(不包括原创 2020-06-02 19:33:05 · 1801 阅读 · 0 评论 -
Kafka时间轮(TimingWheel)和Kafka中的延时操作
kafka相关面试题:https://blog.csdn.net/qq_28900249/article/details/90346599Kafka中存在大量的延迟操作,比如延迟生产、延迟拉取以及延迟删除等。Kafka并没有使用JDK自带的Timer或者DelayQueue来实现延迟的功能,而是基于时间轮自定义了一个用于实现延迟功能的定时器(SystemTimer)。JDK的Timer和DelayQueue插入和删除操作的平均时间复杂度为O(nlog(n)),并不能满足Kafka的高性能要求,而基于时间原创 2020-06-01 18:33:56 · 4537 阅读 · 1 评论 -
kudu 的基本架构与存储结构
kudu 的基本架构与存储结构1. 基本架构TMaster and TServerTMaster 主要用来管理元数据,即tablet 和 表的基本信息,监听TServer的状态,TMaster之间通过raft协议进行数据同步TServer 主要用来管理tablet 。tablet 负责这一张表的某块内容的读写,接受其他tablet leader 传来的同步信息,至于什么是tablet,看下面。2. 存储结构kudu的整个存储架构可以看成这样:一张table 会分成若干个tabl转载 2020-05-14 15:25:04 · 1134 阅读 · 0 评论 -
yarn基础详解
Yarn的基本介绍和模式:YARN的介绍Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。YARN是再MRv1发展过来的,它克服了NRv1的各种限制,...转载 2020-01-14 20:03:01 · 321 阅读 · 0 评论 -
hive LLAP
LLAP提供了一种混合模型,它包含一个长驻进程,用于直接与DataNode 进行IO交互,并紧密地集成在基于DAG的框架中。Caching,pre-fetching,部分query的执行,以及 access control被移动到此进程执行。大部分Small/short queries被此进程直接处理。而如果是大型任务(如在reduce阶段中的大型shuffle) 则仍被标准的yarn con...转载 2020-01-14 14:33:43 · 1419 阅读 · 0 评论 -
一个宽表好还是多个维表好?
前言本篇的主题是关于数据模型的规范化和反规范化的讨论,其实也是一种常见的维度建模的设计和业务使用便捷性的冲突。Dimension Table概念多出现于数据仓库里面,维表与事实表想对应,比如一个 “销售统计表” 就是一个 事实表,而 “销售统计表” 里面统计数据的来源离不开 “商品价格表”,“商品价格表” 就是销售统计的一个维度表。事实数据和维度数据的识别必须依据具体的主题问题而定。“事实...转载 2019-12-24 11:38:10 · 2105 阅读 · 0 评论 -
hadoop性能调优
一、禁止文件系统记录时间Linux文件系统会记录文件创建、修改和访问操作的时间信息,这在读写操作频繁的应用中将带来不小的性能损失。在挂载文件系统时设置noatime和nodiratime可禁止文件系统记录文件和目录的访问时间,这对HDFS这种读取操作频繁的系统来说,可以节约一笔可观的开销。可以修改/etc/fstab文件中noatime和nodiratime来实现这个设置。如对/mnt/...原创 2019-11-27 12:27:58 · 319 阅读 · 0 评论 -
HBase基本架构知识
一、HBase组成1.Client:利用 RPC 机制与 HMaster 和HRegionServer通信;2.Zookeeper: 协调,避免 HMaster 单点问题;HMaster没有单点问题,HBase 中可以启动多个HMaster,通过 ZooKeeper 的 Master Election 机制保证总有一个 Master 在运行。3.HMaster:负责 Table 和 R...原创 2019-08-16 14:28:50 · 258 阅读 · 0 评论 -
hbase rowkey的设计和宽表,窄表的优势
一、引言HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用,在易观精细化运营产品--易观方舟也有广泛的应用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深刻,...转载 2019-07-26 12:43:49 · 870 阅读 · 0 评论 -
logstash的基本应用
ELK学习1.3 Logstash(6.3.2)搭建及配置logstash对file进行读取时,文件路径一定要F:/logs/logstash/*.log而不能写成F:\logs\logstashFilebeat中文指南Filebeat 快速开始logstash实现日志文件同步到elasticsearch深入详解logstash从指定的csv文件读取数据到Elasticsearch...原创 2019-04-30 18:19:04 · 387 阅读 · 0 评论 -
hadoop 50070 无法访问问题解决汇总
遇到这个其实不难解决!解决办法1:[root@djt002 hadoop]# vi /etc/selinux/config改为:SELINUX=disabled解决办法2: 查看你的$HADOOP_HOME/etc/hadoop下的core-site.xml和hdfs-site.xml是否配置好解决办法3: 必须在hadoop-env.sh文件中设置Jav...转载 2019-03-30 19:13:55 · 1896 阅读 · 0 评论