- 博客(10)
- 资源 (4)
- 收藏
- 关注
原创 Kafka的基础架构和集群部署及简单的命令行操作
一、Kafka架构Kafka是一个消息队列(Message Queue)Producer :消息生产者,就是向kafka broker发消息的客户端;Consumer :消息消费者,向kafka broker取消息的客户端;Consumer Group (CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个消费者消费;消费者...
2020-02-29 16:53:20 181
原创 Flume进阶之企业开发案例或自定义组件案例
一、内部原理ChannelSelectorChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用)。ReplicatingSelector会将同一个Event发往所有的Channel,Multiplexing会根据相应的原则,将不同的Event发往不同的Channel。...
2020-02-28 18:30:57 351
原创 Zookeeper的分布式安装和简单的API应用
一、定义Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。二、特点三、应用场景提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。四、分布式安装部署4.1 上传解压tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/4.2 配置环境变量配置到...
2020-02-27 12:02:15 145
原创 Flume的“实时监控目录下的多个追加文件“案例实操
一、需求使用Flume监听整个目录的实时追加文件,并上传至HDFS二、步骤2.1 创建配置文件在flume下创建的job目录下创建配置文件flume-taildir-hdfs.conf,添加内容如下:a3.sources = r3a3.sinks = k3a3.channels = c3# Describe/configure the sourcea3.sources...
2020-02-26 21:30:20 773 3
原创 Flume的安装及“HelloWord“案例实操
一、Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单,Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。二、Flume基础架构三、安装Flume官网地址http://flume.apache.org/文档查看地址ht...
2020-02-26 20:19:58 296
原创 Hive中自定义UDF函数
一、创建Maven二、创建类import org.apache.hadoop.hive.ql.exec.UDF;/** * 将输入的字符串反转 */public class MyUDF extends UDF { /* evaluate方法名不能更改 */ /** * 含数具体方法,反转 * @param input ...
2020-02-25 20:22:03 308
原创 Hive中窗口函数(over())的实例解析
一、函数说明OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化。CURRENT ROW:当前行n PRECEDING:往前n行数据n FOLLOWING:往后n行数据UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点 UNBOUNDED FOLLOWING表示到后面的终点LAG(col,n,default_val)...
2020-02-24 19:41:12 830
原创 Hadoop中Mapreduce的WordCount案例实操
一、MapReduce编程规范1.1 Mapper阶段用户自定义的Mapper要继承自己的父类Mapper的输入数据时KV对的形式(KV的类型可自定义)Mapper中的业务逻辑写在map() 方法中Mapper的输出数据是KV对的形式(KV的类型可自定义)map() 方法(MapTask进程)对每一个<K,V>调用一次2.1 Reduce阶段用户自定义的...
2020-02-14 19:53:41 644
原创 Hadoop中Mapreduce的Job默认切片流程源码解析
一、解析步骤进入writeSplits()方法1. writeNewSplits -> 新API切片进入writeNewSplits()方法2. input -> InputFormat实例3. InputFormat -> 输入格式的父类进入InputFormat 类中关闭InputFormat 类中4. getSplits() ->...
2020-02-13 15:58:56 329
原创 Hadoop中Mapreduce的Job任务提交流程源码解析
一、源码解析步骤1. 设置断点在Driver的job任务提交打上断点进行Debug调试进入其中(F7:进入; F8:下一步; Alt+Shift+F7:强制进入;Shift+F8:退出)进入waitForCompletion()2. submit() -> 提交任务submit()方法作用是将我们的job提交到yarn集群(现在是本地模式)进入submit()...
2020-02-12 20:50:44 1065
saprk_ch_es_realtime的MDB创建表语句,自动生成db数据jar包
2020-09-21
面向对象.xmind
2019-12-16
spring_test.rar
2019-08-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人