Hadoop
静谧之心
专业摩的佬
业余吉他手
退役喷子
展开
-
Sqoop 常用命令大全
测试数据库连接bin/sqoop list-databases --connect jdbc:mysql://hadoop-04:3306/userdb --username root --password 123456sqoop create-hive-table --connect jdbc:mysql://hadoop-04:3306/userdb --table uv_in...原创 2019-11-09 06:33:22 · 801 阅读 · 1 评论 -
典型ETL hive sql 事例
## 开天辟地 外部表create external table ods_app_log( sdk_ver string, time_zone string, commit_id string, commit_time string, ...原创 2019-11-08 10:41:55 · 2585 阅读 · 1 评论 -
秒级处理海量数据,浙江移动大数据平台是怎么做到的?
近年来,随着云计算、移动互联网、物联网等技术的发展,以及智能手机、平板电脑等终端设备的不断涌现,各种类型的电商、社交媒体等应用快速发展,产生了海量的数据,并且数据量增长的速度越来越快,庞大的数据资源引起了各个行业越来越多的关注,并促进了相关技术的发展与创新,产生越来越重要的价值,“大数据时代”已经悄然降临。对于电信运营商来说,目前正处在一个转型的关键时期,从以语音、短信通信为核心业务的传...转载 2019-11-02 09:07:59 · 1639 阅读 · 0 评论 -
MapReduce 配置多路输出模式 (MultipleOutputs)
在setup()里配置多路输出器: public static class AppLogDataCleanMapper extends Mapper<LongWritable, Text, Text, NullWritable> { Text k; NullWritable v; SimpleDateFormat sdf; ...原创 2019-10-30 11:07:06 · 612 阅读 · 0 评论 -
某10亿+用户应用, 后台日志分析系统整体架构, 数据处理流程图
原创 2019-10-26 06:35:33 · 586 阅读 · 0 评论 -
Flume 基本工作机制示意图
原创 2019-10-25 12:54:15 · 268 阅读 · 0 评论 -
Hbase 二级索引示意图
原创 2019-10-25 09:46:19 · 9467 阅读 · 1 评论 -
Flume agent 多级串联示意图
原创 2019-10-25 09:44:25 · 313 阅读 · 0 评论 -
Flume 中 Source组件的几种类型介绍
exec 读取某个命令的输出结果 tail -F (-f会跟丢 因为直追踪同一文件, 而-F是跟踪文件名)spooldir(读取新文件)原创 2019-10-25 06:58:09 · 10992 阅读 · 1 评论 -
Flume 基本配置文件内容
注意: linux不支持行后注释, 这里仅为方便直观, 请注意修改!#定义三大组件的名称ag1.sources = source1ag1.sinks = sink1ag1.channels = channel1# 配置source组件ag1.sources.source1.type = spooldirag1.sources.source1.spoolDir = /root/...原创 2019-10-25 05:45:27 · 388 阅读 · 0 评论 -
Zookeeper 概述
Zookeeper是什么?ZooKeeper(动物园管理员),顾名思义,是用来管理Hadoop(大象)、Hive(蜜蜂)、Pig(小猪)的管理员,同时Apache HBase、Apache Solr、LinkedIn Sensei等众多项目中都采用了ZooKeeper。 ZooKeeper曾是Hadoop的正式子项目,后发展成为Apache顶级项目,与Hadoop密切相关但却没有任何依...原创 2019-10-15 04:30:26 · 287 阅读 · 0 评论 -
Zookeeper 操作大全
1 )使用 ls 命令来查看当前 ZooKeeper 中所包含的内容:[zk: 202.115.36.251:2181(CONNECTED) 1] ls /[zookeeper]2 )创建一个新的 znode ,使用 create /zk myData 。这个命令创建了一个新的 znode 节点“ zk ”以及与它关联的字符串:[zk: 202.115.36.251:2181(CONNE...原创 2019-10-15 04:24:16 · 284 阅读 · 0 评论 -
Yarn的基本工作流程
client向yarn提交job,首先找ResourceManager分配资源,ResourceManager开启一个Container,在Container中运行一个Application managerApplication manager找一台nodemanager启动Application master,计算任务所需的计算Application master向Application...原创 2019-10-15 04:08:51 · 327 阅读 · 0 评论 -
Hive 知识点总结
1/ HIVE是什么?HIVE是一个可以将sql翻译为MR程序的工具HIVE支持用户将HDFS上的文件映射为表结构,然后用户就可以输入SQL对这些表(HDFS上的文件)进行查询分析HIVE将用户定义的库、表结构等信息存储hive的元数据库(可以是本地derby,也可以是远程mysql)中2/ HIVE的用途?解放大数据分析程序员,不用自己写大量的mr程序来分析数据,只需要写sql脚本即可...原创 2019-10-11 09:26:31 · 253 阅读 · 1 评论 -
Hive 技术原理勘探
什么是Hive? Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 redu...转载 2019-10-11 04:22:54 · 203 阅读 · 0 评论 -
MR数据倾斜解决方案---------Combiner局部聚合
其实Combiner和reducer性质一样 就是相当于在Mapper计算的末端局部聚合了一次 如果逻辑符合的话 甚至可以将普通的reducer设置为Combiner 因为它们都继承自同一个类 Reducer.class...原创 2019-09-25 07:42:48 · 519 阅读 · 0 评论 -
MR数据倾斜解决方案2------随机数
通过产生随机数(范围是reducerNum) 并将其拼接到key上 可以让partitioner 均匀的将本质为同一个key 分发到不同的reducer. 再通过二次MR聚合 解决大部分情况下的数据倾斜...原创 2019-09-25 07:38:21 · 2098 阅读 · 0 评论 -
MapReduce 之 Grouping Comparator 分析
MapReduce 通过 这个类来判断 key是否相同 (可以归为同一reduce的一次reduce运算)这个类可以用来分担Reducer任务量, 比如:排序 根据key排序——重写CompareTo()将本质上不同的对象, 按照人类思考解决问题方便归为一类,例如 订单bean 在reducer看来是不同的对象, 因为引用地址不同, 这时我们就要重写mapreduce的 Grouping...原创 2019-09-25 07:34:00 · 1746 阅读 · 0 评论 -
Hadoop HA集群搭建备忘
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA注意:apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.6.4就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,我将编译好的6...原创 2019-09-20 04:05:18 · 1042 阅读 · 0 评论