![](https://img-blog.csdnimg.cn/2019092715111047.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 78
大数据相关框架
_小笼包_
这个作者很懒,什么都没留下…
展开
-
1 - DataX HdfsWriter 插件文档
DataX HdfsWriter 插件文档原创 2022-08-09 12:30:29 · 493 阅读 · 0 评论 -
6-Kafka原理
Kafka原理leader和followerKafka中的leader和follower是相对分区有意义,不是相对brokerKafka在创建topic的时候,会尽量分配分区的leader在不同的broker中,其实就是负载均衡leader职责:读写数据follower职责:同步数据、参与选举(leader crash之后,会选举一个follower重新成为分区的leader注意和ZooKeeper区分ZK的leader负责读、写,follower可以读取Kafka的leader负责读写原创 2022-03-21 15:19:20 · 2322 阅读 · 0 评论 -
5-Kafka中的分区副本机制
生产者的分区写入策略轮询(按照消息尽量保证每个分区的负载)策略,消息会均匀地分布到每个partition写入消息的时候,key为null的时候,默认使用的是轮询策略随机策略(不使用)按key写入策略,key.hash() % 分区的数量自定义分区策略(类似于MapReduce指定分区)乱序问题在Kafka中生产者是有写入策略,如果topic有多个分区,就会将数据分散在不同的partition中存储当partition数量大于1的时候,数据(消息)会打散分布在不同的partiti原创 2022-03-21 15:18:26 · 976 阅读 · 0 评论 -
4-Kafka中的重要概念
Kafka中的重要概念brokerKafka服务器进程,生产者、消费者都要连接broker一个集群由多个broker组成,功能实现Kafka集群的负载均衡、容错producer:生产者consumer:消费者topic:主题,一个Kafka集群中,可以包含多个topic。一个topic可以包含多个分区是一个逻辑结构,生产、消费消息都需要指定topicpartition:Kafka集群的分布式就是由分区来实现的。一个topic中的消息可以分布在topic中的不同partition原创 2022-03-21 15:15:31 · 1621 阅读 · 0 评论 -
3-Kafka Java API开发
生产者程序开发创建连接bootstrap.servers:Kafka的服务器地址acks:表示当生产者生产数据到Kafka中,Kafka中会以什么样的策略返回key.serializer:Kafka中的消息是以key、value键值对存储的,而且生产者生产的消息是需要在网络上传到的,这里指定的是StringSerializer方式,就是以字符串方式发送(将来还可以使用其他的一些序列化框架:Google ProtoBuf、Avro)value.serializer:同上创建一个生产者对象K原创 2022-03-21 15:13:35 · 122 阅读 · 0 评论 -
2-Kafka集群搭建
Kafka集群搭建Kafka集群是必须要有ZooKeeper的注意:每一个Kafka的节点都需要修改broker.id(每个节点的标识,不能重复)log.dir数据存储目录需要配置Kafka的生产者/消费者/工具安装Kafka集群,可以测试以下创建一个topic主题(消息都是存放在topic中,类似mysql建表的过程)基于kafka的内置测试生产者脚本来读取标准输入(键盘输入)的数据,并放入到topic中基于kafka的内置测试消费者脚本来消费topic中的数据推荐大家原创 2022-03-21 15:12:19 · 1918 阅读 · 0 评论 -
1-Kafka简介
消息队列消息队列——用于存放消息的组件程序员可以将消息放入到队列中,也可以从消息队列中获取消息很多时候消息队列不是一个永久性的存储,是作为临时存储存在的(设定一个期限:设置消息在MQ中保存10天)消息队列中间件:消息队列的组件,例如:Kafka、Active MQ、RabbitMQ、RocketMQ、ZeroMQKafka的应用场景异步处理可以将一些比较耗时的操作放在其他系统中,通过消息队列将需要进行处理的消息进行存储,其他系统可以消费消息队列中的数据比较常见的:发送短信验证码、发原创 2022-03-21 15:10:02 · 67 阅读 · 0 评论 -
linux管道相关命令
目标cutsortwcuniqteetrsplitawksedgrep准备数据zhangsan 68 99 26lisi 98 66 96wangwu 38 33 86zhaoliu 78 44 36maq 88 22 66zhouba 98 44 46以上是成绩表信息使用 逗号 分割, 第一列 是 姓名, 第二列是 语文成绩, 第三列是 数学成绩, 第四列是 英语成绩需求1: 按照 数学成绩排名, 取出前三名需求2: 显示 学生的数学成原创 2022-02-14 00:53:27 · 3595 阅读 · 0 评论 -
linux常用命令2
文章目录准备工作一、搜索命令1.find 搜索1.1 目标1.2 路径1.3 实现 : 在指定目录中 根据名称 搜索命令格式第一步: 搜索指定目录下, 文件是 abc.txt的文件第二步: 搜索指定目录下, 文件名 包含 `1` 的文件第三步: 搜索指定目录下,所有以`.txt` 为扩展名的文件第四步: 搜索指定目录下, 以数字`1`开头的文件1.3 小结解压缩命令1.目标2 路径3.实现3.1 第一步: 打包 和 解包3.1.1 打包3.1.2 解包小结3.2 第二步: 使用gzip格式 压缩 和 解压缩原创 2022-02-14 00:33:21 · 316 阅读 · 0 评论 -
linux常用命令
文章目录一、命令概述1.学习Linux终端命令的原因2.Linux终端命令格式目标2.1 终端命令格式常用Linux命令的基本使用2.2 查阅命令帮助信息2.2.1 --help 帮助信息2.2.2 man 手册二、文件和目录常用命令目标1.查看目录内容1.1 终端使用技巧1> 自动补全2> 曾经使用过的命令1.2 ls命令说明1.3 ls常用选项1.4 ls 和通配符的使用2.切换目录2.1 cd2.2 相对路径和绝对路径2.2.1 目标 : 通过 路径 找到 目标2.2.2 如何分步骤实现:原创 2022-02-13 20:25:40 · 867 阅读 · 0 评论 -
YARN 详解
YARNyarn当中的各个主要组件的介绍yarn当中各个主要组件的作用yarn当中的调度器YARN资源调度步骤YARN的基本组成结构(组件):yarn当中的各个主要组件的介绍ResourceManager:yarn集群的主节点,主要用于接收客户端提交的任务,并对任务进行分配。NodeManager:yarn集群的从节点,主要用于任务的计算ApplicationMaster:当有新的任务提交...原创 2019-06-17 11:37:50 · 1139 阅读 · 0 评论 -
MapReduce & Yarn参数优化
MapReduce & Yarn参数优化资源相关参数容错相关参数本地运行mapreduce 作业效率和稳定性相关参数关于yarn常用参数设置资源相关参数以下调整参数都在mapred-site.xml这个配置文件当中有//以下参数是在用户自己的mr应用程序中配置就可以生效(1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认...原创 2019-06-17 10:45:24 · 490 阅读 · 0 评论 -
MapReduce-shuffle详解
MapReduce-shuffle详解shuffle粗解为什么MapReduce计算模型需要Shuffle过程?Shuffle过程:map端:(Spill过程:包括输出,分区,排序,溢写,合并等)Reduce端:(copy(拉取),sort)combiner:(map端的Reduce)相关配置shuffle官方图shuffle粗解shuffle:本意是洗牌、混洗,把一定有规则的数据尽量转换成一...原创 2019-06-03 14:57:16 · 965 阅读 · 1 评论