![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
彬正L
这个作者很懒,什么都没留下…
展开
-
深入kafka:上亿数据,它是如何优化GC的?
大家都知道Kafka是一个高吞吐的消息队列,是大数据场景首选的消息队列,这种场景就意味着发送单位时间消息的量会特别的大,那既然如此巨大的数据量,kafka是如何支撑起如此庞大的数据量的分发的呢?今天我们从kafka架构以如何优化GC两个方面讲解kafka架构既然要说kafka是如何通过内存缓冲池设计来优化JVM的GC问题,那么,如果不清楚kafka 的架构设计,又怎么更好的调优呢?起码的我们要知道基础的才能往更好的出发呀,对把先来看技术名词 Topic:用于划分Message的逻辑概念,一原创 2020-09-30 13:21:18 · 821 阅读 · 0 评论 -
Kafka如何保证消息的顺序性
1. 问题比如说我们建了一个 topic,有三个 partition。生产者在写的时候,其实可以指定一个 key,比如说我们指定了某个订单 id 作为 key,那么这个订单相关的数据,一定会被分发到同一个 partition 中去,而且这个 partition 中的数据一定是有顺序的。消费者从 partition 中取出来数据的时候,也一定是有顺序的。到这里,顺序还是 ok 的,没有错乱。接着,我们在消费者里可能会搞多个线程来并发处理消息。因为如果消费者是单线程消费处理,而处理比较耗时的话,比如处理一转载 2020-06-21 10:49:30 · 397 阅读 · 0 评论 -
kafka不重复消费
Kafka作为当下流行的高并发消息中间件,大量用于数据采集,实时处理等场景,我们在享受他的高并发,高可靠时,还是不得不面对可能存在的问题,最常见的就是丢包,重发问题。丢包问题:消息推送服务,每天早上,手机上各终端都会给用户推送消息,这时候流量剧增,可能会出现kafka发送数据过快,导致服务器网卡爆满,或者磁盘处于繁忙状态,可能会出现丢包现象。解决方案:首先对kafka进行限速, 其次启用重试机制,重试间隔时间设置长一些,最后Kafka设置acks=all,即需要相应的所有处于ISR的分区都确认收到.转载 2020-06-21 10:16:28 · 467 阅读 · 0 评论 -
关于Centos7.3安装Ambari2.4.2+HDP2.5.3搭建大数据集群的笔记(上)
主机环境:Centos7.3(一台)Ambari2.4.2HDP2.5.3正常安装Centos7.3操作系统,相关教程很多,在此不多作描述。1.安装后登录root用户,进行权限认证:vim /etc/gdm/custom.conf在[daemon]下方进行添加:AutomaticLoginEnable=trueA...转载 2019-03-05 14:06:40 · 331 阅读 · 0 评论 -
浅析HBase:为高效的可扩展大规模分布式系统而生
什么是HBaseApache HBase是运行在Hadoop集群上的数据库。为了实现更好的可扩展性(scalability),HBase放松了对ACID(数据库的原子性,一致性,隔离性和持久性)的要求。因此HBase并不是一个传统的关系型数据库。另外,与关系型数据库不同的是,存储在HBase中的数据也不需要遵守某种严格的集合格式,这使得HBase是用来存储结构不严格的数据的理想工具。HBa...转载 2018-09-05 14:07:39 · 458 阅读 · 0 评论 -
深入理解HBase的系统架构
HBase的构成物理上来说,HBase是由三种类型的服务器以主从模式构成的。这三种服务器分别是:Region server,HBase HMaster,ZooKeeper。其中Region server负责数据的读写服务。用户通过沟通Region server来实现对数据的访问。HBase HMaster负责Region的分配及数据库的创建和删除等操作。ZooKeeper作为HDF...转载 2018-09-05 14:00:45 · 125 阅读 · 0 评论 -
Hbase原理、基本概念、基本架构
概述 HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储...转载 2018-09-05 10:44:27 · 108 阅读 · 0 评论 -
spark submit参数调优
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪...转载 2018-08-31 17:29:29 · 134 阅读 · 0 评论 -
Apache Spark 内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff...转载 2018-08-31 17:27:22 · 322 阅读 · 0 评论