hadoop
weixin_42333583
有啥好说的,还在学习阶段。
展开
-
flume负载均衡版配置
flume负载均衡的意思:由node01 发送数据给node02 和node03 ,由他们俩分别轮询接收消息 设置node01,在flume安装包的conf目录下新建load_balancer.conf #命名 a1.sources = r1 a1.channels = c1 a1.sinks = k1 k2 #设置资源 a1.sources.r1.type = exec a1.source...原创 2018-10-19 12:54:47 · 852 阅读 · 0 评论 -
flume_多sources配置
node01 ,node02 机器分别将监控其目录下的三个文件,如果三个文件发生变化就将数据发送给node03进行hdfs保存 A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log 现在要求: 把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。 第一步:配置node01和n...原创 2018-10-19 14:14:31 · 4262 阅读 · 0 评论 -
zookeeper客户端操作及JAVA代码操作CURD
总结:zookeeper相当于一个远程平台,我们可以将数据放在上面,他是一个树形结构,每一个节点称为一个Znode 数据模型:每个节点或称为目录,都可以存放数据并且存放节点,有双重功能 重点watch机制: ZooKeeper 中,引入了 Watcher 机制来实现这种分布式的通知功能 。 总的来说可以概括 Watcher 为以下三个过程:客户端向服务端注册 Watcher、 服务端事件...原创 2018-10-10 21:51:55 · 488 阅读 · 0 评论 -
MapReduce运行原理
MapTask运行的整个过程: 1、默认通过TextInputFormat读取数据,数据都是存放在hdfs的某些block块上 2、调用Map逻辑:默认一个block块对应一个切片,这个可以查看源码(TextInputFormat继承的父类里面就有原理),发现block块多大这个切片就多大。(1,2步骤就是从磁盘到内存的过程) 3、数据写入环形缓冲区(开辟的一块内存),默认环形缓冲区大小是100M...原创 2018-10-20 23:56:19 · 163 阅读 · 0 评论 -
hive的三种连接方式
使用hive的三种方式 第一种:hive的shell操作方式 bin/hive 第二种:Hive JDBC服务 nohup bin/hive --service hiveserver2 & bin/beeline !connect jdbc:hive2://node03:10000 第三种方式:hive命令 bin/hive -e "HQL语句,多个语句用;隔开"; //-e表示直接写...原创 2018-10-20 23:58:17 · 4430 阅读 · 0 评论 -
hive的基本操作
Hive的基本操作 数据库的操作 1 创建数据库操作create database if not exits myhive; 默认将数据库和数据表放在hdfs的/user/hive/warehouse 目录下 2 创建数据库或表,自定义在hdfs存放位置 create database if not exi...原创 2018-10-21 00:06:24 · 182 阅读 · 0 评论 -
hive加载数据的几种形式
hive的数据导入 1 直接插入,效率低 insert into table XXX values(); 如果有分区的话就可以加上 partition(month='201809') 2 通过load方式加载数据 load data local inpath '/export/servers/hive-study-data/score.csv' overwrite into table sc...原创 2018-10-21 00:11:39 · 1546 阅读 · 0 评论