![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop学习总结
元永真
做一个快乐的程序员!元:大度量;永:永久 永恒;贞:正;
展开
-
HIVE和HBASE区别
转载:http://www.cnblogs.com/justinzhang/p/4273470.htmlHIVE和HBASE区别1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了转载 2017-03-16 11:35:07 · 207 阅读 · 0 评论 -
hadoop 第4天
1 Combiners编程每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。 combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。 如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,先完原创 2017-03-15 15:31:43 · 138 阅读 · 0 评论 -
rpc
package cn.itcast.hadoop.rpc;import java.io.IOException;import java.net.InetSocketAddress;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.ipc.RPC;public class RPCC原创 2017-03-15 15:03:32 · 116 阅读 · 0 评论 -
DataCount Partitioner分区
package cn.itcast.hadoop.mr.dc;import java.io.IOException;import java.util.HashMap;import java.util.Map;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;imp原创 2017-03-15 14:36:10 · 280 阅读 · 0 评论 -
WordCount
package cn.itcast.hadoop.mr.wc;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org原创 2017-03-15 14:31:18 · 143 阅读 · 0 评论 -
InverseIndex Combiner
Combiner 和partition的作用combine分为map端和reduce端,作用是把同一个key的键值对合并在一起,可以自定义的。combine函数把一个map函数产生的对(多个key,value)合并成一个新的.将新的作为输入到reduce函数中这个value2亦可称之为values,因为有多个。这个合并的目的是为了减少网络传输。partition是分割map原创 2017-03-15 14:18:57 · 278 阅读 · 0 评论 -
Hadoop第一天
hadoop原创 2017-03-15 10:40:28 · 248 阅读 · 0 评论 -
第6天HBase笔记
1 HBaseHBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。2 主键:Row Key 主键原创 2017-03-16 12:00:13 · 168 阅读 · 0 评论 -
scala 快速入门
转载:http://hainiubl.com/topics/45如果你之前是一名 Java 程序员,并了解 Java 语言的基础知识,那么你能很快学会 Scala 的基础语法。安装Scala#到Scala官方下载地址下载:http://scala-lang.org/download/:Linux下面下载安装:wget http://downloads.ligh原创 2017-03-30 09:19:33 · 849 阅读 · 0 评论 -
sqoop笔记-new.txt
sqoop安装:安装在一台节点上就可以了。1.上传sqoop2.安装和配置在添加sqoop到环境变量将数据库连接驱动拷贝到$SQOOP_HOME/lib里3.使用第一类:数据库中的数据导入到HDFS上sqoop import --connect jdbc:mysql://192.168.1.10:3306/itcast --username root -原创 2017-05-03 11:00:55 · 276 阅读 · 0 评论 -
hive笔记.txt
1.上传hive安装包2.解压 ============= ./hive =====================3.配置3.1安装mysql 查询以前安装的mysql相关包rpm -qa | grep mysql暴力删除这个包rpm -e mysql-libs-5.1.66-2.el6_3.i686 --nodeps转载 2017-03-23 08:42:32 · 191 阅读 · 0 评论 -
hdfs shell命令
l-help [cmd] //显示命令的帮助信息l-ls(r) //显示当前目录下所有文件l-du(s) //显示目录中所有文件大小l-count[-q] //显示目录中文件数量l-mv //移动多个文件到目标目录l-cp //复制多个文件到目标目录l-rm(r) //删除文件(夹)l-put //本地文件复制到hdfsl-copyFromLoca原创 2017-05-06 17:16:06 · 238 阅读 · 0 评论 -
hadoop2.2.0集群搭建.txt
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。注意:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.2.0就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,我将编译好的64位的也上传到群共享里了,如果有兴趣的可以原创 2017-03-15 18:28:14 · 128 阅读 · 0 评论 -
flume 从文件夹导入hdfs
#agent名, source、channel、sink的名称a1.sources = r1a1.channels = c1a1.sinks = k1#具体定义sourcea1.sources.r1.type = spooldira1.sources.r1.spoolDir = /root/logs#具体定义channela1.channels.c1.type =原创 2017-05-06 16:39:11 · 286 阅读 · 0 评论 -
hbase集群搭建.txt
1.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_55 //告诉h原创 2017-03-16 14:37:31 · 132 阅读 · 0 评论 -
决定maper数量的因素
深度分析如何在Hadoop中控制Map的数量 很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了转载 2017-03-15 15:50:49 · 927 阅读 · 0 评论 -
MR
==================================1 切片数量==mapper数量(作业有多少个切片就有多少个maper) 决定切片大小的因素: InputFormat (反射实例化 newInstance) 从配置文件(maperd-default.xml)里取 SPLIT_MAXSIZE 的值 没有 minsize=1 maxsize=2原创 2017-03-15 18:07:29 · 258 阅读 · 0 评论 -
HBase简介(很好的梳理资料)
转自:http://jiajun.iteye.com/blog/899632http://blog.csdn.net/lskyne/article/details/8752966一、简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HB转载 2017-03-16 09:50:10 · 542 阅读 · 0 评论 -
常用命令.txt
新进群的同学请改一下名片,比如“地区-公司/学校-名字”,以方便我们管理,谢谢合作。警告:如果有人加你们介绍培训课程的那些人都不是我们海牛部落所为,大家注意警惕避免上当,我们倡导的是自学氛围,不会进行主动推销。想下载大数据视频的同学请看这里,按贴子操作得到下载链接和密码http://hainiubl.com/topics/40不知道大数据怎么学的看这里 http://hainiub原创 2017-03-15 18:39:47 · 220 阅读 · 0 评论 -
hadoop第3天
1 MapReduce概述; MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。 这两个函数的形参是key、value对,表示函数的输入信息。2 执行步骤: 1. map任务处原创 2017-03-15 13:41:55 · 141 阅读 · 0 评论 -
SumStep 排序
package cn.itcast.hadoop.mr.sort;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import o原创 2017-03-15 15:02:07 · 161 阅读 · 0 评论 -
定时器.txt
基本格式 : * * * * * command 分 时 日 月 周 命令 第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识号星期0~6(0表示星期天) 第6列要运行的命令 crontab文件的一些例子: 30 21 * * * /usr/原创 2017-03-23 08:45:44 · 151 阅读 · 0 评论 -
小项目开发步骤.txt
大数据处理技能1、熟练掌握hadoop分布式数据数据集群,掌握hadoop集群的搭建和配置;2、熟悉MapReduce,hdfs处理问题的思想,熟悉分布式计算模型;3、熟悉hadoop相关框架,有Hive、HBase、pig,sqoop、Mahout、zookeeper开发经验;4、熟悉Storm,Metq,flume,Lucene,Solr,MongoDB等其他开源项目;5、原创 2017-03-23 08:44:38 · 207 阅读 · 0 评论 -
hive安装.txt
Hive只在一个节点上安装即可1.上传tar包 2.解压tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.配置mysql metastore(切换到root用户)配置HIVE_HOME环境变量rpm -qa | grep mysqlrpm -e mysql-libs-5.1.66-2.el6_3.i686 --nodepsr转载 2017-03-23 08:40:30 · 142 阅读 · 0 评论 -
第7天hive
1 sqoop hadoop01 192.168.8.110 hive hadoop03 192.168.8.113 mysql hadoop04 192.168.8.114 密码:mysql -uroot -p123456 2 tar -zxvf apache-hive-0.13.0-bin.tar.gz -C /itcast/ 3 chown原创 2017-03-23 08:39:14 · 180 阅读 · 0 评论 -
stom
1 主从结构 Nimbus(主) zookeoper supervisor(从) Nimbus: 只负责整体分配工作 Supervisor:直接管理干活的worker worker:真正干活(task)的进程 数据传输和计算2 wordcountexample stom API3 stom 并发机制4 stom 数据可靠性Nimbus 故障 换台机器转载 2017-03-23 08:23:41 · 520 阅读 · 0 评论 -
虚拟机配置hostonly 模式
1 找到虚拟机安装位置:右键查看C:\Program Files (x86)\VMware\VMware Workstation2原创 2017-03-25 12:28:39 · 565 阅读 · 0 评论 -
倒排索引
package cn.itcast.hadoop.Inverse;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;impo原创 2017-04-10 09:20:13 · 151 阅读 · 0 评论 -
hadoop第二天
1 hdfs: 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。 通透性。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地原创 2017-03-15 11:23:51 · 168 阅读 · 0 评论 -
HDFSDemo
package cn.itcast.hadoop.hdfs;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.net.URI原创 2017-03-15 14:16:06 · 406 阅读 · 0 评论 -
Zookeeper
1 Zookeeper?»Zookeeper 是 Google的 Chubby一个开源的实现,是Hadoop的分布式协调服务»它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等»大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程(如资源、任务分配等)»目前,大部分应用需要开发私有的协调程序,缺乏一原创 2017-03-15 18:17:26 · 307 阅读 · 1 评论 -
hbase shell
进入hbase命令行./hbase shell显示hbase中的表list创建user表,包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSIONS => '3'}向user表中插入信息,row key为rk0001,列族info中添加name列标示符,值为zhangsan...原创 2018-01-15 18:58:16 · 160 阅读 · 0 评论