2020年08月_故明所以

原创 Flume之企业真实面试题（重点）

一、你是如何实现 Flume 数据传输的监控的使用第三方框架 Ganglia 实时监控 Flume。二、Flume 的 Source，Sink，Channel 的作用？你们 Source 是什么类型？1、作用（1）Source 组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据，包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy（2）Channel 组件对采集到的

2020-08-11 23:50:14 204 1

原创 Flume 数据流监控

一、Ganglia 的安装与部署1、安装 httpd 服务与 php[atguigu@hadoop102 flume]$ sudo yum -y install httpd php2、安装其他依赖[atguigu@hadoop102 flume]$ sudo yum -y install rrdtool perl-rrdtoolrrdtool-devel[atguigu@hadoop102 flume]$ sudo yum -y install apr-devel3、安装 ganglia[a

2020-08-11 23:41:06 300

原创 Flume 企业开发案例

目录一、复制和多路复用二、负载均衡和故障转移三、聚合一、复制和多路复用1、案例需求使用 Flume-1 监控文件变动，Flume-1 将变动内容传递给 Flume-2，Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3，Flume-3 负责输出到 Local FileSystem。2、需求分析：3、实现步骤：（1）准备工作在/opt/module/flume/job 目录下创建 group1 文件夹[atguigu@hadoop102 job]$

2020-08-10 23:37:20 177

原创 Flume之拓扑结构

一、简单串联这种模式是将多个 flume 顺序连接起来了，从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量，flume 数量过多不仅会影响传输速率，而且一旦传输过程中某个节点 flume 宕机，会影响整个传输系统。二、复制和多路复用Flume 支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel 中，或者将不同数据分发到不同的 channel 中，sink 可以选择传送到不同的目的地。三、负载均衡和故障转移

2020-08-10 23:14:47 192

原创 Hive 实战之谷粒影音

一、需求描述统计硅谷影音视频网站的常规指标，各种 TopN 指标：–统计视频观看数 Top10–统计视频类别热度 Top10–统计视频观看数 Top20 所属类别以及类别包含的 Top20 的视频个数–统计视频观看数 Top50 所关联视频的所属类别 Rank–统计每个类别中的视频热度 Top10–统计每个类别中视频流量 Top10–统计上传视频最多的用户 Top10 以及他们上传的观看次数在前 20 视频–统计每个类别视频观看数 Top10二、项目2.1 数据结构1、视频表

2020-08-08 17:43:07 810

原创 hive之企业级调优（绝对是干货！！！）

一、Fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit查找等都不走mapreduce。

2020-08-08 00:11:57 666

原创 hive之函数

目录一、系统自带的函数二、自定义函数三、自定义UDF函数开发案例一、系统自带的函数（1）查看系统自带的函数hive> showfunctions;（2）显示自带的函数的用法hive> desc function upper;（3）详细显示自带的函数的用法hive> desc function extended upper;二、自定义函数（1）Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。（2）当Hive提供的内置函

2020-08-07 22:01:26 245

原创 hive之查询（超级详细！！！）

目录一、基本查询（Select…From）1、全表和特定列查询2、列别名3、算术运算符4、常用函数5 、Limit语句二、Where语句1、比较运算符（Between/In/ Is Null）2、Like和RLike3、逻辑运算符（And/Or/Not）三、分组1、Group By语句2、Having语句四、Join语句1、等值Join2、表的别名3、内连接4、左外连接5、右外连接6、满外连接7、多表连接8、笛卡尔积9、连接谓词中不支持or5、排序1、全局排序（Order By）2、按照别名排序3、多个列排

2020-08-07 21:48:42 16312 3

原创 HDFS Federation 架构设计

目录一、当前HDFS的概况1、当前HDFS的架构2、NameNode 架构的局限性二、HDFS Federation 架构设计1、为什么采用Federation ？2、Federation架构3、Federation关键技术点4、HDFS Federation的主要优点5、HDFS Federation的不足之处三、HDFS Federation 应用思考一、当前HDFS的概况1、当前HDFS的架构当前HDFS包含两层结构：　　(1) Namespace 管理目录，文件和数据块：它支持常见的文件

2020-08-05 12:44:32 610

weixin_43520450的博客