自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Flume之企业真实面试题(重点)

一、你是如何实现 Flume 数据传输的监控的使用第三方框架 Ganglia 实时监控 Flume。二、Flume 的 Source,Sink,Channel 的作用?你们 Source 是什么类型?1、作用(1)Source 组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy(2)Channel 组件对采集到的

2020-08-11 23:50:14 204 1

原创 Flume 数据流监控

一、Ganglia 的安装与部署1、安装 httpd 服务与 php[atguigu@hadoop102 flume]$ sudo yum -y install httpd php2、安装其他依赖[atguigu@hadoop102 flume]$ sudo yum -y install rrdtool perl-rrdtoolrrdtool-devel[atguigu@hadoop102 flume]$ sudo yum -y install apr-devel3、安装 ganglia[a

2020-08-11 23:41:06 300

原创 Flume 企业开发案例

目录一、复制和多路复用二、负载均衡和故障转移三、聚合一、复制和多路复用1、案例需求使用 Flume-1 监控文件变动,Flume-1 将变动内容传递给 Flume-2,Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3,Flume-3 负责输出到 Local FileSystem。2、需求分析:3、实现步骤:(1)准备工作在/opt/module/flume/job 目录下创建 group1 文件夹[atguigu@hadoop102 job]$

2020-08-10 23:37:20 177

原创 Flume之拓扑结构

一、简单串联这种模式是将多个 flume 顺序连接起来了,从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量,flume 数量过多不仅会影响传输速率,而且一旦传输过程中某个节点 flume 宕机,会影响整个传输系统。二、复制和多路复用Flume 支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel 中,或者将不同数据分发到不同的 channel 中,sink 可以选择传送到不同的目的地。三、负载均衡和故障转移

2020-08-10 23:14:47 192

原创 Hive 实战之谷粒影音

一、 需求描述统计硅谷影音视频网站的常规指标,各种 TopN 指标:–统计视频观看数 Top10–统计视频类别热度 Top10–统计视频观看数 Top20 所属类别以及类别包含的 Top20 的视频个数–统计视频观看数 Top50 所关联视频的所属类别 Rank–统计每个类别中的视频热度 Top10–统计每个类别中视频流量 Top10–统计上传视频最多的用户 Top10 以及他们上传的观看次数在前 20 视频–统计每个类别视频观看数 Top10二、项目2.1 数据结构1、视频表

2020-08-08 17:43:07 810

原创 hive之企业级调优(绝对是干货!!!)

一、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。

2020-08-08 00:11:57 666

原创 hive之函数

目录一、系统自带的函数二、自定义函数三、自定义UDF函数开发案例一、系统自带的函数(1)查看系统自带的函数hive> showfunctions;(2)显示自带的函数的用法hive> desc function upper;(3)详细显示自带的函数的用法hive> desc function extended upper;二、自定义函数(1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。(2)当Hive提供的内置函

2020-08-07 22:01:26 245

原创 hive之查询(超级详细!!!)

目录一、基本查询(Select…From)1、全表和特定列查询2、列别名3、算术运算符4、常用函数5 、Limit语句二、Where语句1、比较运算符(Between/In/ Is Null)2、Like和RLike3、逻辑运算符(And/Or/Not)三、分组1、Group By语句2、Having语句四、Join语句1、等值Join2、表的别名3、内连接4、左外连接5、右外连接6、满外连接7、多表连接8、笛卡尔积9、连接谓词中不支持or5、排序1、全局排序(Order By)2、按照别名排序3、多个列排

2020-08-07 21:48:42 16312 3

原创 HDFS Federation 架构设计

目录一、当前HDFS的概况1、当前HDFS的架构2、NameNode 架构的局限性二、HDFS Federation 架构设计1、为什么采用Federation ?2、Federation架构3、Federation关键技术点4、HDFS Federation的主要优点5、HDFS Federation的不足之处三、HDFS Federation 应用思考一、当前HDFS的概况1、当前HDFS的架构当前HDFS包含两层结构:  (1) Namespace 管理目录,文件和数据块:它支持常见的文件

2020-08-05 12:44:32 610

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除