Hadoop
文章平均质量分 77
艾伦蓝
Just do it
展开
-
Hadoop HDFS详细知识学习(fsimage和editlog)
原创 2017-03-03 10:09:49 · 549 阅读 · 0 评论 -
Hadoop MapReduce编程模型之InputFormat接口学习
础上抽象出来的分布式计算框架,特点:任务可以分解成相互独立子问题。[/color][img]http://dl2.iteye.com/upload/attachment/0123/7506/467a97e5-fb44-37c9-b71e-38a4cc87da04.png[/img]上面灰色部分是整个编程模型,分为两层:所谓工具层就是增加点兼容性而已,而下面的接口层就是费神的地方了。先来点官方的,[size=medium][color=red][b]InputFormat主要用于描述数据的原创 2017-03-16 18:55:27 · 276 阅读 · 0 评论 -
Hadoop HBase入门学习
的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作。HBase在产品中还包含了Jetty,[color=red][b]在HBase启动时采用嵌入式的方式来启动Jetty[/b][/color],因此[color=red][b]可以通过web界面对HBase进行管理和查看当前运行的一些状态[/b][/color],非常轻巧。[img]http://dl2.iteye.com/upload/attachment/0123/8373/原创 2017-03-21 11:05:04 · 85 阅读 · 0 评论 -
Hadoop HBase操作数据学习(shell和api)
原创 2017-03-21 11:25:37 · 117 阅读 · 0 评论 -
Hadoop hbase-site.xml 参数收藏学习
x-large][color=red][b]hbase.rootdir[/b][/color][/size]这个目录是region server的共享目录,用来持久化HBase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的'/hbase'目录,namenode 运行在namenode.example.org的9090端口。则需要设置为hdfs://namenode.example.org:9000/hbase。默认情况下HBase是写到/tmp的。不改这个配置,数原创 2017-03-21 14:36:33 · 85 阅读 · 0 评论 -
Hadoop HBase完全分布式集群搭建(1.2.5)
[/code][color=red][b]1、安装Zookeeper集群[/b][/color]2、hbase-env.sh中指定JAVA_HOME、使用外部zookper集群如下配置:[code="sh"]#指定jdk安装目录export JAVA_HOME=/usr/java/jdk1.7.0_55#指明HBase不需要管理zookeeper因为zookeeper有自己的集群export HBASE_MANAGES_ZK=false[/code][原创 2017-03-21 16:04:43 · 94 阅读 · 0 评论 -
Hadoop HBase存储原理结构学习
e Hbase2008.1 Hadoop become Apache top-level project and Hbase becomes subproject2008.10 Hbase 0.18,0.19 released [b]hbase是bigtable的开源山寨版本。[/b][color=red][b]是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。[/b][/color]它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的原创 2017-03-22 10:01:45 · 162 阅读 · 0 评论 -
Hadoop MapReduce WordCount程序编写
org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.ap原创 2017-03-23 10:52:39 · 116 阅读 · 0 评论 -
Hadoop MapReduce统计手机流量案例学习(结合Partitioner)
原创 2017-03-23 14:13:18 · 149 阅读 · 0 评论 -
Hadoop 完全分布式安装配置学习(hadoop 2.6.5)
原创 2017-03-15 15:35:05 · 116 阅读 · 0 评论 -
Hadoop 之shuffle(将map输出转化为reducer的输入的过程)
原创 2017-03-10 14:03:39 · 224 阅读 · 0 评论 -
Hadoop Map-Reduce入门学习
始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-[code="txt"]0067011990999991950051507+0000+0043011990999991950051512+0022+0043011990999991950051518-0011+0043012650999991949032412+0111+0043012650999991949032418+0078+0067011原创 2017-03-06 09:59:22 · 89 阅读 · 0 评论 -
Hadoop Map-Reduce的过程解析
态函数实现的:[code="java"]public static RunningJob runJob(JobConf job) throws IOException { //首先生成一个JobClient对象 JobClient jc = new JobClient(job); …… //调用submitJob来提交一个任务 running = jc.submitJob(job); JobID jobId = runnin原创 2017-03-06 15:43:52 · 147 阅读 · 0 评论 -
Hadoop之JobTracker,TaskTracker,Scheduler
原创 2017-03-07 09:56:27 · 117 阅读 · 0 评论 -
Hadoop之MapReduce输入(split)输出
plit会被分解成一个个记录(key-value对),map会依次处理每一个记录。[color=red][b](Key:偏移量,不是行数)[/b][/color][color=blue][size=large][b]FileInputFormat:[/b][/size][/color]FileInputFormat是所有以文件作为数据源的InputFormat实现的基类,FileInputFormat保存作为job输入的所有文件,并实现了对输入文件计算splits的方法。至于获得记录原创 2017-03-07 10:05:37 · 130 阅读 · 0 评论 -
Hadoop HDFS文件存储特点结构
原创 2017-03-07 10:55:54 · 154 阅读 · 0 评论 -
Hadoop 常见问题分析
原创 2017-03-07 14:37:05 · 96 阅读 · 0 评论 -
Hadoop 配置文件解析
red][size=x-large][b]搭建Hadoop[/b][/size][/color][size=large][b]1.1.复制编译后的hadoop项目到/usr/local目录下[/b][/size][b]1.2.修改位于etc/hadoop目录下的配置文件[/b][b]1.2.1.hadoop-env.sh[/b]export JAVA_HOME=/usr/local/jdk[size=medium][b]1.2.2.core-site.xml[/b][/siz原创 2017-03-08 15:51:40 · 80 阅读 · 0 评论 -
Hadoop之MapReduce WordCount详细分析
,然后在集群中的各个节点上执行,这既是Map过程。在Map过程结束之后,会有一个Ruduce的过程,这个过程即将所有的Map阶段产出的结果进行汇集。写MapReduce程序的步骤:[b]1.把问题转化为MapReduce模型[/b]2.设置运行的参数3.写map类4.写reduce类例子:统计单词个数[size=medium][color=red][b]将文件拆分成splits,每个文件为一个split,并将文件按行分割形成对[/b][/color][/size],Map原创 2017-03-10 11:02:59 · 100 阅读 · 0 评论 -
Hadoop MapReduce常见问题学习(shuffle-->将map输出转化成reducer输入)
原创 2017-03-23 16:28:00 · 123 阅读 · 0 评论 -
Hadoop MapReduce将HDFS文本数据导入HBase
个Mapreduce作业将数据导入HBase[/b][/color][/size][size=medium][color=blue][b]2.另一种方式就是使用HBase原生Client API[/b][/color][/size]本文就是示范如何通过MapReduce作业从一个文件读取数据并写入到HBase中。首先启动Hadoop与HBase,然后创建一个空表,用于后面导入数据:[code="command"]hbase(main):006:0> cr原创 2017-03-24 11:13:31 · 102 阅读 · 0 评论 -
Hadoop MapReduce操作Hbase范例学习(TableMapReduceUtil)
原创 2017-03-24 15:37:57 · 151 阅读 · 0 评论 -
Hadoop YARN完全分布式配置学习
设三台机器IP如下:[/b][/color][code="txt"]192.168.40.138 master192.168.40.137 slave-1192.168.40.136 slave-2[/code][size=medium][color=red][b]一.前置环境配置[/b][/color][/size][b]1.创建hadoop用户[/b]以下操作使用root用户[code="command"]$useradd -d /原创 2017-04-26 10:27:22 · 196 阅读 · 0 评论 -
Hadoop MapReduce处理wordcount代码分析
th;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapredu原创 2017-04-28 14:25:06 · 75 阅读 · 0 评论 -
Hadoop 分布式文件系统学习
原创 2017-05-10 15:34:22 · 93 阅读 · 0 评论 -
Hadoop HBase性能优化学习
htable = new HTable(config, tablename); htable.setWriteBufferSize(6 * 1024 * 1024); htable.setAutoFlush(false);[/code] 设置buffer的容量,例子中设置了6MB的buffer容量。[color=red][b]* 必须禁止auto flush。[/b][/color][color=blue][b]* 6MB是经验值,可以上下微调以适应不同的写场景。[/b][/c原创 2017-05-12 09:15:10 · 115 阅读 · 0 评论 -
Hadoop HBase中Compaction原理学习
保证读性能。[/b][/color]RegionServer后台有一组负责flush region的线程(MemStoreFlusher),每次从flushQueue中拿出一个flush region请求,[color=red][b]会检查这个region是否有某个store包含的storefile个数超过配置hbase.hstore.blockingStoreFiles,默认7[/b][/color],如果超过,说明storefile个数已经到了会影响读性能的地步,那么就看这个flush re原创 2017-05-12 10:34:01 · 142 阅读 · 0 评论 -
Hadoop HBase中split原理学习
原创 2017-05-12 13:38:55 · 210 阅读 · 0 评论 -
Hadoop HBase行健(rowkey)设计原则学习
e中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:* 通过get方式,指定rowkey获取唯一一条记录* 通过scan方式,设置startRow和stopRow参数进行范围匹配* 全表扫描,即直接扫描整张表中所有行记录[size=large][color=red][b]rowkey长度原则[/b][/color][/size]--------------------------------------rowkey是一个二进制码流,可以是任意字符串,最大原创 2017-05-15 10:34:52 · 371 阅读 · 0 评论 -
Hadoop HBase建表时预分区(region)的方法学习
原创 2017-05-15 11:18:47 · 160 阅读 · 0 评论 -
Hadoop YARN各个组件和流程的学习
的NodeManager[color=blue][b]* 运行在每个NodeManager上针对某个任务的Container[/b][/color][size=large][b]1. ResourceManager[/b][/size][color=blue][b]负责对各个 NodeManager 上的资源进行统一管理和调度。[/b][/color]包含两个组件: [b]* Scheduler:[/b]调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数原创 2017-04-24 19:04:40 · 116 阅读 · 0 评论 -
Hadoop YARN(Yet Another Resource Negotiator)详细解析
精细处理框架,Hadoop 在大数据处理的全新领域迎来了爆炸式增长。[b]Hadoop 还开发了一个丰富多样的应用程序生态系统,包括 Apache Pig(一种强大的脚本语言)和 Apache Hive(一个具有类似 SQL 界面的数据仓库解决方案)。[/b]不幸的是,这个生态系统构建于一种编程模式之上,无法解决大数据中的所有问题。MapReduce 提供了一种特定的编程模型,尽管已通过 Pig 和 Hive 等工具得到了简化,但它不是大数据的灵丹妙药。我们首先介绍一下 MapReduce 2.0原创 2017-04-24 18:30:57 · 308 阅读 · 0 评论 -
Hive 架构与基本语法(OLAP)
转化加载(ETL)[/b][/color],[color=blue][b]这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。[/b][/color]Hive 定义了简单的类SQL 查询语言,[b]称为 QL,它允许熟悉 SQL 的用户查询数据[/b]。同时,[b]这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。[/b]Hive没有专门的数据格式。 Hive 可以原创 2017-04-05 15:16:38 · 112 阅读 · 0 评论 -
Hive 基础知识学习(语法)
中的每一条记录对应于文件中的一行,各个字段的值是被指定的分隔符分隔的。[/b][/color]在读数据的时候,会将文件行以分隔符分隔字段值,并将各个值按顺序给字段;[color=red][b]现有的 hive 的权限基于文件的,如果某个用户对表对应的文件有读的权限,那么用户就对表有读的权限。 [/b][/color]当前 hive 运用最多的是分区,hive 会将各个分区的数据分别放在不同的文件夹下; [color=red][b]在用 hive 执行 SQL 语句时,是将语句处理成 mapreduc原创 2017-04-05 15:51:03 · 105 阅读 · 0 评论 -
Hive优化学习(join ,group by,in)
Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。 Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个mapred程序中。 案例: [code="sql"]SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)[/code原创 2017-04-05 18:48:45 · 540 阅读 · 0 评论 -
Hive 连接查询操作(不支持IN查询)
ISTS b( telno STRING, other STRING )PARTITIONED BY(day String) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'; [/code][color=red][b]测试表a中数据如下:[/b][/color] hive> select * from a; OK 130 a 01 131 b 01 132 c 01 133 d 01 134 e 01原创 2017-04-05 19:16:35 · 200 阅读 · 0 评论 -
Hive SQL自带函数总结
7 [color=red][b]字符串反转函数:reverse [/b][/color]语法: reverse(string A) 返回值: string 说明:返回字符串A的反转结果 举例: hive> select reverse(‘abcedfg’) from dual; gfdecba [color=red][b]字符串连接函数:concat [/b][/color]语法: concat(string A, string B…) 返回值: str原创 2017-04-05 19:25:50 · 138 阅读 · 0 评论 -
Hive 文件压缩存储格式(STORED AS)
XTFILE为默认格式,建表时不指定,默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。 [/b][/color][size=x-large][color=red][b]SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从textfile表中用insert导入到SequenceFile,RCFile表中。 [/b][/color][/size][size=large][color=red][b]TEXTF原创 2017-04-06 09:35:29 · 194 阅读 · 0 评论 -
Hive 元数据和QL基本操作学习整理
构信息有关的有9张,其余的10多张或为空,或只有简单的几条记录,以下是部分主要表的简要说明。[img]http://dl2.iteye.com/upload/attachment/0124/1683/1b6be851-7894-3019-a29a-eb0a9354dd23.png[/img]从上面表的内容来看,hive整个创建表的过程已经比较清楚了。 [color=red][b]1. 解析用户提交hive语句,对其进行解析,分解为表、字段、分区等hive对象 [/b][/color][b原创 2017-04-06 14:36:55 · 118 阅读 · 0 评论 -
Hive 注意事项与扩展特性
原创 2017-04-06 19:31:39 · 81 阅读 · 0 评论