大数据
文章平均质量分 83
weixin_42232931
这个作者很懒,什么都没留下…
展开
-
分布式消息队列Kafka(四)- 消费者
可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前, 考虑上一次分配的结果,尽量少的调整分配的变动,可以节省大量的开销。粘性分区是 Kafka 从 0.11.x 版本开始引入这种分配策略,首先会尽量均衡的放置分区到消费者上面,在出现同一消费者组内消费者出现问题的时候,会尽量保持原有分配的分区不变化。原创 2023-04-25 15:02:41 · 1236 阅读 · 1 评论 -
分布式消息队列Kafka(三)- 服务节点Broker
当broker启动的时候,都会创建KafkaController对象,但是集群中只能有一个leader对外提供服务,这些每个节点上的KafkaController会在指定的zookeeper路径下创建临时节点,只有第一个成功创建的节点KafkaController才可以成为leader,其余的都是follower。 Topic是逻辑上的概念,而partition是物理上的概念,每个partition对应于一个log文件,该log文件中存储的就是Producer生产的数 据。参数设定,默认 30s。原创 2023-04-25 14:54:06 · 763 阅读 · 0 评论 -
分布式消息队列Kafka(二)- 生产者
At Least Once可以保证数据不丢失,但是不能保证数据不重复;At Most Once可以保证数据不重复,但是不能保证数据不丢失。• 精确一次(Exactly Once):对于一些非常重要的信息,比如和钱相关的数据,要求数据既不能重复也不丢失。Kafka 0.11版本以后,引入了一项重大特性:幂等性和事务。原创 2023-04-25 14:48:10 · 476 阅读 · 0 评论 -
Spark核心编程RDD
一.RDD概述1.1.什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。➢ 弹性 ⚫ 存储的弹性:内存与磁盘的自动切换; ⚫ 容错的弹性:数据丢失可以自动恢复; ⚫ 计算的弹性:计算出错重试机制; ⚫ 分片的弹性:可根据需要重新分片。➢ 分布式:数据存储在大数据集群不同节点上➢ 数据集:RDD 封装了计算逻辑,并不原创 2022-04-02 20:21:20 · 2028 阅读 · 1 评论 -
Spark 核心概念介绍与安装
1 Spark概述1)spark是什么?1. 速度基于流式计算速度要比hadoop快100倍左右,离线计算比mr快速10倍左右2. 易用spark提供了超过80个高阶算子供给我们使用,并支持非常多的编程语言:Java\Scala\R\Python...3. 通用性提供了几乎大数据分析中的所有的技术栈:离线:spark core,sql:spark sql、图计算、机器学习等等4. 随处运行支持yarn、standalone、mesos、kebernates....5. 说人话原创 2022-03-26 16:55:55 · 2507 阅读 · 0 评论 -
Flume监听数据到Hive案例
1. 案例描述及准备Exec Source:监听一个指定的命令,获取一条命令的结果作为它的数据源#常用的是tail -F file指令,即只要应用程序向日志(文件)里面写数据,source组件就可以获取到日志(文件)中最新的内容memory:传输数据的Channel为Memoryhdfs 是输出目标为Hdfs创建相应的hive表create table sql_log (source_ip string,dest_ip string,db_name string,db_type strin原创 2022-03-13 08:22:21 · 296 阅读 · 0 评论 -
Flume简介及安装配置
一 Flume的简介1.1 大数据处理流程在企业中,大数据的处理流程一般是:1.数据采集2.数据存储3.数据清洗4.数据分析5.数据展示参考下图:在数据采集和搜集的工具中,Flume框架占有一定的市场份量。1.2 Flume的简介Flume是一种分布式的,可靠的、高可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单的可扩展数据模型,允许在线分析应原创 2022-03-12 14:29:49 · 254 阅读 · 0 评论 -
Hive分区介绍
1.1 分区简介1.1.1 为什么分区Hive的Select查询时,一般会扫描整个表内容。随着系统运行的时间越来越长,表的数据量越来越大,而hive查询做全表扫描,会消耗很多时间,降低效率。而有时候,我们需求的数据只需要扫描表中的一部分数据即可。这样,hive在建表时引入了partition概念。即在建表时,将整个表存储在不同的子目录中,每一个子目录对应一个分区。在查询时,我们就可以指定分区查询,避免了hive做全表扫描,从而提高查询效率。1.1.2 如何分区根据业务需求而定,不过通常以年、月、日原创 2022-03-12 09:48:37 · 5427 阅读 · 0 评论 -
Hive的简介及安装
一 Hive简介1.1. Hive的简介1.1.1 什么是hivehive是一个构建在Hadoop上的数据仓库工具(框架),可以将结构化的数据文件映射成一张数据表,并可以使用类sql的方式来对这样的数据文件进行读,写以及管理(包括元数据)。这套HIVE SQL 简称HQL。hive的执行引擎可以是MR、spark、tez。如果执行引擎是MapReduce的话,hive会将Hql翻译成MR进行数据的计算。 用户可以使用命令行工具或JDBC驱动程序来连接到hive。1.1.2 为什么使用hive因为原创 2022-03-12 09:24:38 · 510 阅读 · 0 评论 -
分布式资源管理器YARN
一 YARN的概述为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的,针对Hadoop 1.0中的MapReduce在扩展性和多框架支持方面的不足,提出了全新的资源管理框架YARN.Apache YARN(Yet another Resource Negotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于一个分布式的操作系统平台,而MapReduce等计算程序则相当于运行于操作系统之上的应用程序。yarn被引入Hadoop2,原创 2022-03-12 06:39:39 · 1237 阅读 · 0 评论 -
分布式文件系统HDFS
一 HDFS的块的概念1.1 传统型分布式文件系统的缺点现在想象一下这种情况:有四个文件 0.5TB的file1,1.2TB的file2,50GB的file3,100GB的file4;有7个服务器,每个服务器上有10个1TB的硬盘。在存储方式上,我们可以将这四个文件存储在同一个服务器上(当然大于1TB的文件需要切分)。那么缺点也就暴露了出来:第一、负载不均衡。因为文件大小不一致,势必会导致有的节点磁盘的利用率高,有的节点磁盘利用率低。第二、网络瓶颈问题。一个过大的文件存储在一个节点磁盘上,原创 2022-03-12 05:48:20 · 858 阅读 · 0 评论 -
Hadoop概述与Hadoop集群搭建
1. Hadoop概述1.1. Hadoop的组成部分hadoop2.0以后的四个模块: - Hadoop Common:Hadoop模块的通用组件 - Hadoop Distributed File System:分布式文件系统 - Hadoop YARN:作业调度和资源管理框架 - Hadoop MapReduce:基于YARN的大型数据集并行计算处理框架hadoop3.0新扩展的两个模块: - Hadoop Ozone:Hadoop的对象存储机制原创 2022-03-05 12:51:08 · 1793 阅读 · 0 评论 -
VMware15安装centos7,并配置静态ip
VMware15安装centos7,并配置静态ip1.创建虚拟机如果是win10操作系统建议移除打印机,声卡,usb接口,否则可能会引起电脑蓝屏选择iso镜像文件位置2.安装linux系统配置网络,先选择自动配置网络,之后再配置静态ip配置用户3.配置网络及静态ip编辑虚拟网络在 Windows 中 “网络与Internet” -> “以太网” -> “更改适配器选项” 中配置 虚拟机网络最后,还有一步非常关键,就是将当前 Wind原创 2022-03-05 09:54:11 · 781 阅读 · 0 评论