Garyodd-CSDN博客

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【HBase和Hive的整合】

HIVE: 是一个数据仓库的工具, 主要是用于对HDFS上数据进行映射, 采用SQL的方式操作数据, HIVE主要适用于离线数据统计分析操作, 延迟性比较高, SQL最终会翻译为MRHBase: 是一个nosql型数据库, 主要是用于存储数据, 不支持SQL, 也不支持join操作, 延迟性比较低, 交互性比较强。

2023-07-24 22:30:26 134

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【HBase高可用和核心原理】

HBase的高可用, 主要指的是让集群中主节点高可用, 目前构建HBase的集群中, 主节点Master只有一台, 如果主节点宕机, 整个集群就会丢失主节点, 希望当主节点宕机后, 可以有备份节点顶上来成为主节点。

2023-07-18 23:23:50 139

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【HBase高级shell操作】

scan 'test01',{FILTER=>"SingleColumnValueFilter('f1','name',=,'substring:z')"} -- 找到后, 将整个数据全部都返回了。SingleColumnValueExcludeFilter: 在指定的列族和列名中进行比较具体的值, 将符合的数据全部都返回(不包含条件的内容字段)scan 'test01',{FILTER=>"ValueFilter(=,'substring:z')"} -- 不满足要求。

2023-07-18 00:40:58 123

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【HBase的基本shell操作】

scan '表名'[,{COLUMNS=>['列族1','列族2'] || COLUMNS=>['列族1','列族2:列名'] || COLUMNS=>['列族1:列名','列族2:列名'], FORMATTER=>'toString', LIMIT=>N,STARTROW=>'起始rowkey', ENDROW=>'结束rowkey']get '表名','rowkey值'[,'列族1','列族2'... || '列族1:列名1','列族2:列名2'... || '列族1','列族1:列名1'... ]

2023-07-17 22:44:12 116

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【HBASE基本介绍】

HDFS: 分布式文件存储系统特点: 吞吐量极高, 适合于进行批量数据处理工作, 随机的读写能力比较差(压根就不支持)但是, 在实际生产环境中, 有时候数据体量比较大, 但是希望能够对数据进行随机的读写操作, 而且不能太慢了, 如何解决呢?对于市场来说, 其实非常迫切的需要一款能够支持大规模数据存储以及能够对数据进行高效的随机读写操作, 而HBase其实就是在这样的背景下产生, 灵感来源于 google发布的一篇论文(BigTable)

2023-07-12 23:26:28 207

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA消费者的负载均衡机制】

Kafka的消费者负载均衡机制规定:1- 在一个消费者组内, 消费者的数量最多和所监听的topic的分片数量是相等的, 如果有大于分片数量的消费者, 一定会有消费者处于闲置的状态2- 在一个消费者组内, topic的一个分片的数据只能被一个消费者所接收, 不允许出现一个分片被多个消费者所接收的情况, 而一个消费者是可以接收多个分片的数据如何模拟点对点消费模式: 让所有监听这个topic的消费者, 都处在同一个消费组内。

2023-07-12 23:14:50 270

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA生产者数据分发机制】

1- 轮询策略(2.4版本以下), 目前为粘性分发策略是Java客户端拥有的。在生产端, 构建数据承载对象的时候, 采用此构造方式, 即可实现指定分区的策略。4- 随机分发策略 (Python 客户端支持, Java 客户端不支持)4- 自定义分区策略: 在MR中自定义分区方案很相似的。2- Hash 取模分发策略。3- Hash取模分发策略。2- Hash取模分发策略。分区编号: 从 0 开始。6- 自定义分区策略。5- 自定义分区策略。

2023-07-12 23:07:40 78 1

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA消息存储和查询机制】

存儲路径: /export/server/kafka/data在此目录下,根据topic名称和分片编号创建一个目录,在此目录下存储对应分片的数据1- Kafka中数据是存储在磁盘中, 通过分文件的方式来存储的, 一个log文件默认最大为1GB,当达到1GB后, 就会滚动形成一个新的log文件, 同时对应的index文件也会滚动形成一个新的文件2- 每一个消息数据片段都是由两个文件组成的:index文件: 对log文件中数据索引信息log文件: 存储是真正消息数据3- 文件名表示什么?

2023-07-12 22:43:31 78 1

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA核心机制】

解决方案: 选择清空缓存池 / 不清空, 如果数据是可重复读的,那么直接让程序报错即可, 通知处理, 处理后, 重新获取发送即可, 如果数据是不可重复读,为了避免此种问题, 我们可以数据先在某个其他位置保存(备份), 当数据生产成功, 删除对应的数据, 生产不成功, 后续直接从保存的位置中获取生产即可。第三步: 消费者开始消费数据, 在消费的过程中, 每消费完数据后, 都要和kafka集群进行汇报, 汇报当前消费到了那一个偏移量信息。如果consumer找到了上次消费位置, 接着从这个位置开始消费数据。

2023-07-05 23:07:27 62

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA基准测试】

注意: 在进行Kafka的基准测试的时候, 受Topic的分片和副本的数量影响会比较大, 一般在测试的时候, 会构建多个topic, 每一个topic设置不同的分片和副本的数量, 比如: 一个设置分片多一些, 副本少一些, 一个设置分片少一些, 副本多一些, 要不设置分片多副本也多。--producer-props bootstrap.servers=node1:9092,node2:9092,node3:9092 acks=1 设置生产者的配置信息(连接地址, 消息确认方案)

2023-07-05 23:02:54 58

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA的shell命令】

必备选项:1- 执行什么操作 --create 表示为创建2- 连接地址: 建议是zookeeper地址 --zookeeper node1:2181,node2:2181,node3:21813- 创建的topic的名字: --topic test014- topic有多少个分片: --partitions 35- 每个分片有多少个副本: --replication-factor 2。

2023-07-05 22:58:12 55

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA基本介绍】

消息: 数据只不过这个数据具有流动的状态队列: 存储数据的容器, 只不过这个容器具有FIFO(先进先出)特性消息队列: 数据在队列中, 从队列的一端传递到另一端的过程, 数据在整个队列中产生了一种流动状态kafka是Apache旗下的一款开源免费的消息队列的中间件产品最早是有领英公司开发的, 后期贡献给Apache, 目前也是Apache旗下的顶级开源项目. 采用的语言为scala, Kafka2依然要依赖于zookeeper的官方网站:kafka特点：可靠性：分布式，分区，复制和容错等。

2023-06-20 23:59:32 149 1

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive函数】

【代码】【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive函数】

2023-03-25 23:22:17 108

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive查询操作】

3、我们需要设置一个参数，不让SQL去元数据中获取行数，而是执行这条SQL对文件进行出来，自己来统计行数：set hive.compute.query.using.stats=false;1、在Hive的一些版本中，当使用聚合函数来统计时，发现SQL语句没有返回返回任何结果。2、因为Hive默认是去MySQL的元数据中获取文件的行数、但是元数据中默认行数都是0。

2023-03-25 23:11:08 292

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive分区表分桶表】

表的分类:内部表：内部常规表内部分区表内部分桶表外部表:外部常规表外部分区表外部分桶表#分区就是分文件夹1、分区表实际是就是对要进行分析的文件进行分类管理2、本质是将相同特征的文件存放在同一个文件夹下，通过文件夹对数据进行分类3、分区之后在查询时，可以通过添加条件，避免进行全表扫描，提高查询效率4、分区表又分为静态分区和动态分区5、分区表是一种优化手段，是锦上添花的东西，一张表可以没有分区，但是查询效率可能会比较低1、分桶表和分区表没什么关系。

2023-03-25 20:08:59 66

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive的数据库和表操作】

1、Hive创建表的操作就是指定：表名、表的列名、表的列类型2、Hive创建表内部的结构和传统的数据库的SQL除了语法相似，内部原理完全不同Hive的表数据类型整形： int浮点型： float / double / decimal(10,2)字符串： string日期类型：年月日：date时分秒：time年月日-时分秒：date_time注意：如果是日期或者时间，则使用字符串可以避免一些不必要的兼容问题复杂类型：array：数组，集合map ：键值对集合struct：类表分类。

2023-03-11 17:16:07 116

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive框架】

1、Hive将HDFS上的结构化数据文件映射成一张张的表，哪个文件对应哪张表，每张表的表结构信息这些数据被称为元数据MetaData，都需要保存起来，而Hive本身是不存任何数据的，这些数据在本课程中都由第三方数据库MySQL存储。#面向主题性：数仓的数据在分析时，并不是泛泛而去胡乱分析，而是必须先确定好主题，也就是分析时所占的角度（用户主题，销售主题、地域主题、线路主题，征信主题、赔付主题）#稳定性：数仓中的数据一般有一个数据采集周期（天，周，月），在下一个采集周期到来之前，数仓中的数据是不变的。

2023-03-11 17:07:14 155

GaryNB的博客

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【HBase和Hive的整合】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【HBase高可用和核心原理】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【HBase高级shell操作】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【HBase的基本shell操作】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【HBASE基本介绍】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA消费者的负载均衡机制】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA生产者数据分发机制】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA消息存储和查询机制】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA核心机制】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA基准测试】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA的shell命令】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【KAFKA基本介绍】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive函数】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive查询操作】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive分区表分桶表】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive的数据库和表操作】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hive框架】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Yarn组件】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【mapreduce的join】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【MapReduce组件】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【HDFS组件】

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Hadoop】学习笔记

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Zookeeper】学习笔记

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Shell实战】学习笔记

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Shell编程】学习笔记

原创【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Linux基础】学习笔记

空空如也

空空如也