hadoop学习整理
坚持到底cw
奋斗青年
展开
-
hadoop细节---Mapreduce过程详解
一.先回顾一下hadoop api中的数据类型: BooleanWritable:标准布尔型数值 ByteWritable:单字节数值 DoubleWritable:双字节数值 FloatWritable:浮点数 IntWritable:整型数原创 2013-10-04 16:11:06 · 5292 阅读 · 4 评论 -
hadoop细节——shuffle和combiner
1.将map输出传给reduce过程中需要排序(按键排序)的过程——shuffle。2.每个map任务都有一个环形内存缓冲区(默认为100MB,可以通过改变io.sort.mb属性来调整),用于存储任务的输出,当缓冲区到达阀值时(io.sort.spill.percent,默认为0.8),新建一个溢出写文件,把内容写到磁盘,写磁盘将按照轮询方式写到mapred.local.dir所指定的目录。原创 2013-11-27 15:22:33 · 1830 阅读 · 0 评论 -
详解mapreduce过程
一.数据类型 BooleanWritable:标准布尔型数值 ByteWritable:单字节数值 DoubleWritable:双字节数值 FloatWritable:浮点数 IntWritable:整型数 LongWritabl原创 2013-11-27 15:06:16 · 1251 阅读 · 0 评论 -
mahout学习
Mahout 是机器学习和数据挖掘的一个分布式框架,区别于其他的开源数据挖掘软件,它是基于hadoop之上的; 所以hadoop的优势就是Mahout的优势。Mahout用map-reduce实现了部分数据挖掘算法,解决了并行挖掘的问题。一. 配置maven: 1. 下载maven,http://maven.apache.org/download.cgi ,原创 2013-11-27 15:19:58 · 1776 阅读 · 0 评论 -
hive与hbase整合
用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面 的hql查询.hive也即做数据仓库.一.配置1.将hbase/conf下面的hive-hbase-handler-0.11.0.jar hbase-0.94.7.jar zookeeper-3.4.5.jar hive-contrib-0原创 2013-11-27 15:18:03 · 943 阅读 · 0 评论 -
Hadoop子项目——hbase
1.HBase是一个在HDFS上开发的面向列的分布式数据库,可实时地随机读写超大规模数据集,它不是关系型数据库,不支持SQL。2.行中的列分成列族,所有的列族成员具有相同的前缀,一个表的列族必须作为表的模式定义的一部分预先给出,但是新的列族成员可以随后按需加入。3.区域:HBase自动把表水平划分成区域,每个区域由表中行的子集构成,区域是HBase集群分布数据的最小单位。4.HBase原创 2013-11-27 14:42:02 · 669 阅读 · 0 评论 -
Hadoop子项目——hive
1.hive是一个分布式、按列存储的数据仓库,它管理HDFS中的数据。2.传统数据库是写时模式,hive是读时模式。更新、事物、索引传统数据库有,但是hive暂时还不支持。3.类型转换:任何整数类型都可以隐式地转换为一个范围更大的类型。 hive数据类型:tinyint smallint int bigint float doubleboolean string array ma原创 2013-11-27 14:40:22 · 690 阅读 · 0 评论 -
zookeeper与sqoop
1.ZooKeeper是hadoop的分布式协调服务,提供一组工具,使在构建分布式应用时能够对部分失败进行正确的处理。2.Sqoop的导入:能将数据从关系型数据库抽取到hadoop中,供MR程序应用或者hive应用。Sqoop的导出:将HDFS数据移到关系型数据库。(将一张表从HDFS导出到数据库时,我们必须在数据库中先创建一张用于接收数据的目标表)3.实战:%mysql -u r原创 2013-11-27 14:44:17 · 2219 阅读 · 0 评论 -
hadoop子项目---pig
1、Pig包括用于描述数据流的语言Pig Latin和用于运行Pig Latin的执行环境(单JVM中的本地执行环境和hadoop集群上的分布式环境)。2.Pig会扫描整个数据集或其中很大的一部分,因此它不支持低延迟查询。3.Pig的执行模式分为本地模式pig -x local(访问本地文件系统,适用于小规模数据集)和mapreduce模式(Pig将查询翻译为mapredu原创 2013-10-04 16:42:02 · 1310 阅读 · 0 评论 -
VM下搭建hadoop集群
一.前期准备1.安装VMware_Workstation_wmb2.安装三台CentOS-6.3-i386-bin-DVD1 Master;192.168.66.174 Slave1:192.168.66.171 Slave2:9:1.168.66.173二.安装步骤:(在安装centos时就把pc的名字改好,免得后面改hostna原创 2013-10-04 16:34:34 · 2368 阅读 · 0 评论 -
hadoop细节---reduce任务数量
1.reduce任务的数量并非由输入数据的大小决定,而是特别指定的。可以设定mapred.tasktracker.map.task.maximum和mapred.tasktracker.reduce.task.maximum属性的值来指定map和reduce的数量。2.reduce最优个数与集群中可用的reduce任务槽相关,总槽数由节点数乘以每个节点的任务槽。3.本地作业运行器上,只支持原创 2013-10-04 16:15:59 · 5767 阅读 · 0 评论 -
Hbase学习与总结
一.Hbase简介: Hbase是bigtable的开源山寨版本。它利用HadoopHDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事原创 2013-11-27 15:16:35 · 5674 阅读 · 0 评论