![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 91
BLFaker84516
热爱编程、热爱生活!各种DIY设计,有想法,有行动!感谢大家关注收藏,不定期分享好项目源码及教程。
下载后,有问题请及时私信沟通,欢迎提问,欢迎来撩!
展开
-
大数据学习:kafka-producer源码分析
kafka-1.0.1源码下载地址二.Producer初始化流程2.1 此时我们先撇开源码不说,先来画个原理图。首先我们现在是初始化了一个 对吧。然后会有一个 ,看这个英文像是拦截器,它会把我们的消息根据一定的规则去过滤掉。但是这个东西其实作用不大,因为我通过if-else都可以代替它的作用,所以就是比较鸡肋。所以发送消息前会用它进行一个消息的过滤,结束后会对消息进行 。序列化结束,就找到(要知道该发送到哪一台服务器上的哪一个分区)进行分区。所以我们现在得到的四个关键词是此时发送之前,我们要原创 2023-09-01 16:45:00 · 5072 阅读 · 0 评论 -
大数据学习:kafkaManager功能详解
下面已常用的选项作说明1)Enable JMX Polling是否开启 JMX 轮训,该部分直接影响部分 kafka broker 和 topic 监控指标指标的获取(生效的前提是 kafka 启动时开启了 JMX_PORT。主要影响如下之指标的查看:2) Poll consumer information是否开启获取消费信息,直接影响能够在消费者页面和 topic 页面查看消费信息。3) Enable Active OffsetCache是否开启 offset 缓存,决定 kafka-manage原创 2023-09-01 10:00:00 · 1187 阅读 · 0 评论 -
大数据学习:impala基础
impala是参照谷歌的新三篇论文(Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具)当中的Dremel实现而来,其中旧三篇论文分别是(BigTable,GFS,MapReduce)分别对应我们即将学的HBase和已经学过的HDFS以及MapReduce。impala是基于hive并使用内存进行计算,兼顾数据仓库,具有实时,批处理,多并发等优点。原创 2023-08-31 18:45:00 · 951 阅读 · 0 评论 -
大数据学习:haproxy实现impala的负载均衡
1.将目录下的文件备份,新建文件,添加如下配置主要配置了HAProxy的http状态管理界面、impalashell和impalajdbc的负载均衡。原创 2023-08-31 11:00:00 · 236 阅读 · 0 评论 -
大数据学习:Hive主流文件存储格式对比
orc 默认的压缩方式ZLIB比Snappy压缩的还小。在实际的项目开发当中,hive表的数据存储格式一般选择:orc或parquet。由于snappy的压缩和解压缩 效率都比较高,压缩方式一般选择snappy。原创 2023-08-30 17:30:00 · 162 阅读 · 0 评论 -
大数据学习:Hive企业级调优
压缩模式评价常见压缩格式http://google.github.io/snappy/On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.案例实操:1.4 开启Reduce输出阶段压缩当Hive将输出写入到表中时,输出内容同样可以进行压缩。属性hive.exec.原创 2023-08-30 10:30:00 · 87 阅读 · 0 评论 -
大数据学习:Hive基础与DDL操作
PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 分区[CLUSTERED BY (col_name, col_name, ...) 分桶[ROW FORMAT row_format] row format delimited fields terminated by “分隔符”字段解释说明CREATE TABLE 创建一个指定名字的表。原创 2023-08-29 16:30:00 · 185 阅读 · 0 评论 -
大数据学习:hive的DQL和DML操作
分桶是相对分区进行更细粒度的划分Hive表或分区表可进一步的分桶比如按照name属性分为3个桶,就是对name属性值的hash值对3取摸,按照取模结果对数据分桶。取模结果为0的数据记录存放到一个文件取模结果为1的数据记录存放到一个文件取模结果为2的数据记录存放到一个文件。原创 2023-08-29 09:45:00 · 186 阅读 · 0 评论 -
大数据学习:Hive常用函数
开发hql脚本,并使用hiveconf和hivevar进行参数传入node03执行以下命令定义hql脚本use myhive;Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)根据用户自定义函数类别分为以下三种:UDF(User-Defined-Function) 一进一出。原创 2023-08-28 18:00:00 · 406 阅读 · 0 评论 -
大数据学习:Hive安装部署
注意hive就是,只需要在一台服务器上安装就可以了,不需要在多台服务器上安装。此处以安装到node03为例;请大家保持统一使用hadoop普通用户操作。原创 2023-08-28 10:07:22 · 142 阅读 · 0 评论