![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据中篇
文章平均质量分 84
大数据中篇
Radiation_x
这个作者很懒,什么都没留下…
展开
-
大数据中篇03_Flume
Flume定义:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单Flume基础架构Flume安装部署(1)将apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/software目录下(2)解压apache-flume-1.9.0-bin.tar.gz到/opt/module/目录下tar -zxf /opt/software/apache-flume-1.9.0-bin.tar原创 2021-02-09 20:09:56 · 1027 阅读 · 4 评论 -
大数据中篇04_Kafka
KafkaKafka是scala写的异步处理的消息队列kafka基础框架(1)Producer :消息生产者,就是向kafka broker发消息的客户端;(2)Consumer :消息消费者,向kafka broker取消息的客户端;(3)Consumer Group (CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。(4)Broker原创 2021-02-09 20:07:22 · 180 阅读 · 0 评论 -
大数据中篇03_flume事务(重点!)
Flume事务(重点)Put 事务流程doPut:将批数据先写入临时缓冲区 putListdoCommit:检查 channel 内存队列是否足够合并doRollback:channel 内存队列空间不足,回滚数据Take 事务流程doTake:将数据取到临时缓冲区 takeList,并将数据发送到 HDFSdoCommit:如果数据全部发送成功,则清除临时缓冲区 takeListdoRollback:数据发送过程中如果出现异常,rollback 将临时缓冲区 takeList 中的数据归原创 2021-02-09 16:54:32 · 151 阅读 · 0 评论 -
大数据中篇01_Hive
HiveHive:由Facebook开源用于解决海量结构化日志的数据统计工具Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能本质是:将HQL转化成MapReduce程序(1)Hive处理的数据存储在HDFS(2)Hive分析数据底层的实现是MapReduce(3)执行程序运行在Yarn上Hive的优缺点优点(1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)(2)避免了去写MapReduce,减少开发人员的学习成本原创 2021-01-24 10:19:05 · 104 阅读 · 0 评论 -
大数据中篇02_Hive-数据操作语句
Hive-数据操作语句(陆续修改中)函数部分查看系统内置函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;常用内置函数空字段赋值(NVL)函数说明NVL:给值为NULL的数据赋值,它的格式是NVL( value,default_value)。它的功能是如果value为NU原创 2021-01-22 22:40:20 · 145 阅读 · 1 评论