自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【HBase和Hive的整合】

HIVE: 是一个数据仓库的工具, 主要是用于对HDFS上数据进行映射, 采用SQL的方式操作数据, HIVE主要适用于离线数据统计分析操作, 延迟性比较高, SQL最终会翻译为MRHBase: 是一个nosql型数据库, 主要是用于存储数据, 不支持SQL, 也不支持join操作, 延迟性比较低, 交互性比较强。

2023-07-24 22:30:26 126

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【HBase高可用和核心原理】

HBase的高可用, 主要指的是让集群中主节点高可用, 目前构建HBase的集群中, 主节点Master只有一台, 如果主节点宕机, 整个集群就会丢失主节点, 希望当主节点宕机后, 可以有备份节点顶上来成为主节点。

2023-07-18 23:23:50 134

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【HBase高级shell操作】

scan 'test01',{FILTER=>"SingleColumnValueFilter('f1','name',=,'substring:z')"} -- 找到后, 将整个数据全部都返回了。SingleColumnValueExcludeFilter: 在指定的列族和列名中进行比较具体的值, 将符合的数据全部都返回(不包含条件的内容字段)scan 'test01',{FILTER=>"ValueFilter(=,'substring:z')"} -- 不满足要求。

2023-07-18 00:40:58 111

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【HBase的基本shell操作】

scan '表名'[,{COLUMNS=>['列族1','列族2'] || COLUMNS=>['列族1','列族2:列名'] || COLUMNS=>['列族1:列名','列族2:列名'], FORMATTER=>'toString', LIMIT=>N,STARTROW=>'起始rowkey', ENDROW=>'结束rowkey']get '表名','rowkey值'[,'列族1','列族2'... || '列族1:列名1','列族2:列名2'... || '列族1','列族1:列名1'... ]

2023-07-17 22:44:12 104

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【HBASE基本介绍】

HDFS: 分布式文件存储系统特点: 吞吐量极高, 适合于进行批量数据处理工作, 随机的读写能力比较差(压根就不支持)但是, 在实际生产环境中, 有时候数据体量比较大, 但是希望能够对数据进行随机的读写操作, 而且不能太慢了, 如何解决呢?对于市场来说, 其实非常迫切的需要一款能够支持大规模数据存储以及能够对数据进行高效的随机读写操作, 而HBase其实就是在这样的背景下产生, 灵感来源于 google发布的一篇论文(BigTable)

2023-07-12 23:26:28 197

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【KAFKA消费者的负载均衡机制】

Kafka的消费者负载均衡机制规定:1- 在一个消费者组内, 消费者的数量最多和所监听的topic的分片数量是相等的, 如果有大于分片数量的消费者, 一定会有消费者处于闲置的状态2- 在一个消费者组内, topic的一个分片的数据只能被一个消费者所接收, 不允许出现一个分片被多个消费者所接收的情况, 而一个消费者是可以接收多个分片的数据如何模拟点对点消费模式: 让所有监听这个topic的消费者, 都处在同一个消费组内。

2023-07-12 23:14:50 259

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【KAFKA生产者数据分发机制】

1- 轮询策略(2.4版本以下), 目前为 粘性分发策略 是Java客户端拥有的。在生产端, 构建数据承载对象的时候, 采用此构造方式, 即可实现指定分区的策略。4- 随机分发策略 (Python 客户端支持, Java 客户端不支持)4- 自定义分区策略: 在MR中自定义分区方案很相似的。2- Hash 取模分发策略。3- Hash取模分发策略。2- Hash取模分发策略。分区编号: 从 0 开始。6- 自定义分区策略。5- 自定义分区策略。

2023-07-12 23:07:40 74 1

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【KAFKA消息存储和查询机制】

存儲路径: /export/server/kafka/data在此目录下,根据topic名称和分片编号创建一个目录,在此目录下存储对应分片的数据1- Kafka中数据是存储在磁盘中, 通过分文件的方式来存储的, 一个log文件默认最大为1GB,当达到1GB后, 就会滚动形成一个新的log文件, 同时对应的index文件也会滚动形成一个新的文件2- 每一个消息数据片段都是由两个文件组成的:index文件: 对log文件中数据索引信息log文件: 存储是真正消息数据3- 文件名表示什么?

2023-07-12 22:43:31 69 1

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【KAFKA核心机制】

解决方案: 选择清空缓存池 / 不清空, 如果数据是可重复读的,那么直接让程序报错即可, 通知处理, 处理后, 重新获取发送即可, 如果数据是不可重复读,为了避免此种问题, 我们可以数据先在某个其他位置保存(备份), 当数据生产成功, 删除对应的数据, 生产不成功, 后续直接从保存的位置中获取生产即可。第三步: 消费者开始消费数据, 在消费的过程中, 每消费完数据后, 都要和kafka集群进行汇报, 汇报当前消费到了那一个偏移量信息。如果consumer找到了上次消费位置, 接着从这个位置开始消费数据。

2023-07-05 23:07:27 53

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【KAFKA基准测试】

注意: 在进行Kafka的基准测试的时候, 受Topic的分片和副本的数量影响会比较大, 一般在测试的时候, 会构建多个topic, 每一个topic设置不同的分片和副本的数量, 比如: 一个设置分片多一些, 副本少一些, 一个设置分片少一些, 副本多一些, 要不设置分片多副本也多。--producer-props bootstrap.servers=node1:9092,node2:9092,node3:9092 acks=1 设置生产者的配置信息(连接地址, 消息确认方案)

2023-07-05 23:02:54 52

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【KAFKA的shell命令】

必备选项:1- 执行什么操作 --create 表示为创建2- 连接地址: 建议是zookeeper地址 --zookeeper node1:2181,node2:2181,node3:21813- 创建的topic的名字: --topic test014- topic有多少个分片: --partitions 35- 每个分片有多少个副本: --replication-factor 2。

2023-07-05 22:58:12 47

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【KAFKA基本介绍】

消息: 数据 只不过这个数据具有流动的状态队列: 存储数据的容器, 只不过这个容器具有FIFO(先进先出)特性消息队列: 数据在队列中, 从队列的一端传递到另一端的过程, 数据在整个队列中产生了一种流动状态kafka是Apache旗下的一款开源免费的消息队列的中间件产品 最早是有领英公司开发的, 后期贡献给Apache, 目前也是Apache旗下的顶级开源项目. 采用的语言为scala, Kafka2依然要依赖于zookeeper的官方网站:kafka特点:可靠性:分布式,分区,复制和容错等。

2023-06-20 23:59:32 142 1

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Hive函数】

【代码】【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Hive函数】

2023-03-25 23:22:17 99

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Hive查询操作】

3、我们需要设置一个参数,不让SQL去元数据中获取行数,而是执行这条SQL对文件进行出来,自己来统计行数:set hive.compute.query.using.stats=false;1、在Hive的一些版本中,当使用聚合函数来统计时,发现SQL语句没有返回返回任何结果。2、因为Hive默认是去MySQL的元数据中获取文件的行数、但是元数据中默认行数都是0。

2023-03-25 23:11:08 277

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Hive分区表分桶表】

表的分类:内部表:内部常规表内部分区表内部分桶表外部表:外部常规表外部分区表外部分桶表#分区就是分文件夹1、分区表实际是就是对要进行分析的文件进行分类管理2、本质是将相同特征的文件存放在同一个文件夹下,通过文件夹对数据进行分类3、分区之后在查询时,可以通过添加条件,避免进行全表扫描,提高查询效率4、分区表又分为静态分区和动态分区5、分区表是一种优化手段,是锦上添花的东西,一张表可以没有分区,但是查询效率可能会比较低1、分桶表和分区表没什么关系。

2023-03-25 20:08:59 54

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Hive的数据库和表操作】

1、Hive创建表的操作就是指定:表名、表的列名、表的列类型2、Hive创建表内部的结构和传统的数据库的SQL除了语法相似,内部原理完全不同Hive的表数据类型整形: int浮点型: float / double / decimal(10,2)字符串: string日期类型:年月日:date时分秒:time年月日-时分秒:date_time注意:如果是日期或者时间,则使用字符串可以避免一些不必要的兼容问题复杂类型:array:数组,集合map :键值对集合struct: 类表分类。

2023-03-11 17:16:07 110

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Hive框架】

1、Hive将HDFS上的结构化数据文件映射成一张张的表,哪个文件对应哪张表,每张表的表结构信息这些数据被称为元数据MetaData,都需要保存起来,而Hive本身是不存任何数据的,这些数据在本课程中都由第三方数据库MySQL存储。#面向主题性:数仓的数据在分析时,并不是泛泛而去胡乱分析,而是必须先确定好主题,也就是分析时所占的角度(用户主题,销售主题、地域主题、线路主题,征信主题、赔付主题)#稳定性:数仓中的数据一般有一个数据采集周期(天,周,月),在下一个采集周期到来之前,数仓中的数据是不变的。

2023-03-11 17:07:14 148

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Yarn组件】

Hadoop组件之间的关系Yarn的介绍1、Yarn是Hadoop2.x版本引入的一个新组件2、Yarn本身没有资源,是来管理集群资源,为分布式计算提供合理的资源分配方案3、Yarn可以让集群的资源能够统一,高效率给分配4、Yarn本身也是一个集群:主节点:ResourceManager从节点:NodeManagerYarn的集群架构。

2023-02-25 13:01:12 180

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【mapreduce的join】

1、Reduce Join是在Reduce完成Join操作2、Reduce端Join,Join的文件在Map阶段K2就是Join字段3、Reduce会存在数据倾斜的风险,如果存在该文件,则可以使用MapJoin来解决4、Reduce端Join的代码必须放在集群运行,不能在本地运行Reduce端Join@Override//1:确定读取的是哪个源数据文件//获取文件切片//获取源文件的名字//2:处理订单文件。

2023-02-22 09:48:35 117

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【MapReduce组件】

1、定义类继承Partitioner类2、重写getPartition方法,在该方法中对每一个K2和V2打标记,标记从0开始,0标记的键值对会被0编号的Reduce拉取进行聚合,1标记的键值对会被1编号的Reduce进行聚合/*** @param i Reduce的个数* @return*/@Override// 长度>=5的单词打标记为0// 长度小于5的单词打标记为1return 0;3、设置job你的自定义分区类。

2023-02-17 22:37:32 190

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【HDFS组件】

由于极端情况下,主NameNode发生了假死现象,临时假死,后来又复活,这样原来的主NameNode状态是Active,后来的备用NameNode状态也改为Active,这样就会有两个Active状态的NameNode,会造成元数据的管理混乱,就相当于一个大脑被拆分了。如果HDFS上有很多的小文件,会占用大量的NameNode元数据的内存空间,需要将这些小文件进行归档(打包),归档之后,相当于将多个文件合成一个文件,而且归档之后,还可以透明的访问其中的每一个文件。

2023-02-08 13:55:19 235

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Hadoop】学习笔记

1、Hadoop是Apache旗下的使用Java语言开发的框架2、Hadoop内部包含三个组件:HDFS(分布式文件系统):解决海量数据存储MAPREDUCE(分布式运算编程框架):解决海量数据计算YARN(作业调度和集群资源管理的框架):解决资源任务调度。

2023-01-30 19:44:40 276

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Zookeeper】学习笔记

ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。

2023-01-11 15:56:09 267

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Shell实战】学习笔记

为结束标志的,所以这句命令后面的分号是不可缺少的,考虑到各个系统中分号会有不同的意义,所以前面加反斜杠。1)find命令只是来查找匹配的文件,如果查到文件之后还需要进一步的操作,则需要添加-exec参数,{}表示find查询出来的文件名字。中杠(-):可以用整数之间的中杠表示一个整数范围,例如“2-6”表示“2,3,4,5,6”周(0~6 0=SUN 或 SUN,MON,TUE,WED,THU,FRI,SAT)逗号(,):可以用逗号隔开的值指定一个列表范围,例如,“1,2,5,7,8,9”

2023-01-09 15:32:35 85

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Shell编程】学习笔记

单引号里的内容原封不动的输出,双引号里有变量的调用则会调用变量itcast[root@node1 ~]# echo $usernamedb.log #这种方式不可以.log[root@node1 ~]# echo "$username"db.log #可以[root@node1 ~]# echo ${username}db.log #可以#脚本内容:test1.sh/bin/bashnum=5。

2023-01-06 16:18:42 102

原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程 【Linux基础】学习笔记

Linux是个操作系统类似于windows,主要应用于各大网站,app,直播平台的底层系统.也是世界上比较知名的服务器操作系统.主要相关的工作有Linux运维工程师,DBA数据库管理员,安全运维工程师,这些都是偏向系统相关的(包括服务,网络等等)另一个方向是开发相关的Java,Python开发的代码都是运行在Linux系统上面的.常见的Linux系统有:目前主流的有两大阵营,6个系统.

2023-01-01 14:04:36 291

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除