![](https://img-blog.csdnimg.cn/20210507235701490.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 95
Hadoop文章分享
cr7258
这个作者很懒,什么都没留下…
展开
-
如何往 Kafka 发送大消息?
默认情况下,Kafka topic 中每条消息的默认限制为 1MB。这是因为在 Kafka 中,非常大的消息被认为是低效和反模式的。然而,有时候你可能需要往 Kafka 中发送大消息。在本文中我们将研究在 Kafka 中处理大消息的两种方法。选项 1:使用外部存储将大消息(例如视频文件)发送到外部存储,在 Kafka 中只保存这些文件的引用,例如文件的 URL。外部存储可以是云存储(例如 Amazon S3),也可以是网络存储(NAS)或者 HDFS 等本地大型文件存储系统。选项 2:修改 Kafk原创 2022-06-17 22:27:01 · 1293 阅读 · 0 评论 -
Kafka 生产环境部署指南
1 Kafka 基本概念和系统架构在 Kafka 集群中存在以下几种节点角色:Producer:生产者,生产消息并推送到 Kafka 集群中。Consumer:消费者,从 Kafka 集群中拉取并消费消息。可以将一个和多个 Consumer 指定为一个 Consumer Group(消费者组),一个消费者组在逻辑上是一个订阅者,不同消费者组之间可以消费相同的数据,消费者组之间互不干扰。Broker:一台 Kafka 服务器就是一个 Broker,一个 Kafka 集群由多个 Broker 组成。原创 2021-10-16 23:31:50 · 1290 阅读 · 0 评论 -
Spark 系列教程(2)运行模式介绍
Spark 运行模式Apache Spark 是用于大规模数据处理的统一分析引擎,它提供了 Java、Scala、Python 和 R 语言的高级 API,以及一个支持通用的执行图计算的优化引擎。Spark Core 是 Spark 的核心模块,负责任务调度、内存管理等功能。Spark Core 的实现依赖于 RDD(Resilient Distributed Datasets,弹性分布式数据集)的程序抽象概念。在 Spark Core 的基础上,Spark 提供了一系列面向不同应用需求的组件,包括使原创 2021-10-07 14:56:10 · 771 阅读 · 0 评论 -
Spark 系列教程(1)Word Count
基本概要Spark 是一种快速、通用、可扩展的大数据分析引擎,是基于内存计算的大数据并行计算框架。Spark 在 2009 年诞生于加州大学伯克利分校 AMP 实验室,2010 年开源,2014 年 2月成为 Apache 顶级项目。本文是 Spark 系列教程的第一篇,通过大数据中的 “Hello World” – Word Count 实验带领大家快速上手 Spark。Word Count 顾名思义就是对单词进行计数,我们首先会对文件中的单词做统计计数,然后输出出现次数最多的 3 个单词。前提条件原创 2021-09-25 22:37:52 · 1435 阅读 · 0 评论 -
Kafka 常用工具脚本总结
系统启动 Kafka-daemon 参数可以让 Kafka 在后台运行。kafka-server-start.sh -daemon /usr/local/kafka/config/server.properties指定 JMX 端口启动JMX 的全称为 Java Management Extensions。 顾名思义,是管理 Java 的一种扩展,通过 JMX 可以方便我们监控 Kafka 的内存,线程,CPU 的使用情况,以及生产和消费消息的指标。JMX_PORT=9999 kafka-se原创 2021-09-13 21:47:03 · 700 阅读 · 0 评论 -
kafka 连接器实现 Mysql 数据同步 Elasticsearch
为什么需要将 Mysql 数据同步到 ElasticsearchMysql 作为传统的关系型数据库,主要面向 OLTP,性能优异,支持事务,但是在一些全文检索,复杂查询上面并不快。Elasticsearch 底层基于 Lucense 实现,天然分布式,采用倒排索引存储数据,全文检索效率很高,使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。kafka 连接器同步方案Debezium 是捕获数据实时动态变化(change data capture,CDC)的开源的分布式同原创 2021-04-04 09:53:19 · 1666 阅读 · 0 评论 -
Kafka 连接器使用与开发
Kafka 连接器Kafka 连接器介绍Kafka 连接器通常用来构建数据管道,一般有两种使用场景:开始和结束的端点:例如,将 Kafka 中的数据导出到 HBase 数据库,或者把 Oracle 数据库中的数据导入 Kafka 中。数据传输的中间介质:例如,为了把海量的日志数据存储到 Elasticsearch 中,可以先把这些日志数据传输到 Kafka 中,然后再从 Kafka 中将这些数据导入到 Elasticsearch 中进行存储。Kafka 连接器可以作为数据管道各个阶段的缓冲区,将原创 2021-03-18 22:03:24 · 821 阅读 · 2 评论 -
ksqlDB基本使用
基本概念ksqlDB ServerksqlDB是事件流数据库,是一种特殊的数据库,基于Kafka的实时数据流处理引擎,提供了强大且易用的SQL交互方式来对Kafka数据流进行处理,而无需编写代码。KSQL具备高扩展、高弹性、容错式等优良特性,并且它提供了大范围的流式处理操作,比如数据过滤、转化、聚合、连接join、窗口化和 Sessionization (即捕获单一会话期间的所有的流事件)等。ksqlDB CLIKSQL命令行界面(CLI)以交互方式编写KSQL查询。 KSQL CLI充当KSQL原创 2021-03-06 17:58:36 · 3927 阅读 · 0 评论 -
Kafka监控框架介绍
CMAKCMAK(原Kafka Manager) 是雅虎公司于 2015 年开源的一个 Kafka 监控框架。这个框架用 Scala 语言开发而成,主要用于管理和监控 Kafka 集群。github地址:https://github.com/yahoo/CMAK,安装前提要求Java版本在11以上。在其 Github 官网上下载 tar.gz 包之后,我们执行解压缩,可以得到CMAK目录。之后,我们需要运行 sbt 工具来编译CMAK。sbt 是专门用于构建 Scala 项目的编译构建工具,类似于原创 2021-02-27 23:15:47 · 558 阅读 · 0 评论 -
Hbase 入门详解
Hbase 入门详解HBase 简介HBase 的全称是 Hadoop Database,是一个分布式的,可扩展,面向列簇的数据库。HDFS 为 Hbase 提供了可靠的底层数据存储服务,Zookeeper 为 Hbase 元数据管理和协调服务,Hbase 是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。HBase 的原型是谷歌的分布式存储系统 BigTable,是谷歌 BigTable 的开源实现。HBase 基本概念Table:表,一个表包含多行数据。Rowkey原创 2021-08-03 22:59:06 · 474 阅读 · 0 评论 -
Elasticsearch VS ClickHouse
Clickhouse 是俄罗斯搜索巨头 Yandex 开发的完全列式存储计算的分析型数据库。ClickHouse 在这两年的 OLAP 领域中一直非常热门,国内互联网大厂都有大规模使用。Elasticsearch 是一个近实时的分布式搜索分析引擎,它的底层存储完全构建在 Lucene 之上。简单来说是通过扩展 Lucene 的单机搜索能力,使其具有分布式的搜索和分析能力。 Elasticsearch 通常会和其它两个开源组件 Logstash(日志采集)和 Kibana(仪表盘)一起提供端到端的日志/搜索原创 2021-08-02 23:29:59 · 765 阅读 · 0 评论 -
CDH 部署教程
CDH 介绍CDH 全称 Cloudera’s Distribution Including Apache Hadoop,是 Cloudera 公司提供的一个 Apache Hadoop 发行版。CDH 将 Hadoop 与其他十几个关键的开源项目集成,并且加入了集群自动化安装、中心化管理、集群监控、报警等功能。通过 CDH 可以使集群的安装从几天的时间缩短为几个小时。节点规划Cloudera Manager Server 节点提供 WebUI 操作界面,管理 Cloudera Manager A原创 2021-07-08 23:15:14 · 1872 阅读 · 6 评论 -
MapReduce 原理介绍与开发实战
MapReduce 是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发地运行在 Hadoop 集群上。为什么需要 MapReduce海量数据在单机上处理受到硬件资源限制,而一旦将单机程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度。为了提高开发效率,MapReduce 将分布式程序中的公共功能封装成框架。引入 MapReduce 框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将分布式计算中复杂的工作交由框架来处理原创 2021-06-26 00:16:34 · 644 阅读 · 2 评论 -
Pulsar 介绍与部署
Apache Pulsar 是灵活的发布-订阅消息系统(Flexible Pub/Sub messaging),采用计算与存储分离的架构。雅虎在 2013 年开始开发 Pulsar ,于 2016 年首次开源,目前是 Apache 软件基金会的顶级项目。Pulsar 具有支持多租户、持久化存储、多机房跨区域数据复制、高吞吐、低延迟等特性。Pulsar 组件Pulsar 集群主要由以下三部分组成:Broker:Pulsar 的 broker 是一个无状态组件,本身不存储数据。主要负责处理 produc原创 2021-05-22 14:08:17 · 1613 阅读 · 0 评论 -
Hadoop 分布式集群安装
Hadoop 介绍Hadoop 从 2.x 开始,逐渐演变成: HDFS,YARN,MapReduce 三大应用模块,这三个应用模块分别的能力和作用是:HDFS:分布式文件系统,用来解决海量大文件的存储问题MapReduce:一套通用的用来解决海量大文件计算的编程模型 APIYARN:资源调度/管理系统其中需要注意的是:这三者之间的关系。彼此独立,又相互依赖。使用 MapReduce 的分布式编程 API 编写分布式计算应用程序,读取存储在 HDFS 上的海量大文件进行计算,由 YARN 提供原创 2021-05-07 23:47:39 · 151 阅读 · 0 评论