Hadoop学习笔记
wangzhantao
这个作者很懒,什么都没留下…
展开
-
Hadoop HDFS Hadoop Archives工具的使用
使用场景: 大量小文件会消耗掉名称节点的 大量内存,这时候可以用这个命令合并小文件,减小名称节点内存占用量 1 列出hadoop根目录下的所有文件 hadoop fs -ls -R /2 将 /user这个目录下的所有文件归档到/user/har/目录下,名字为user.har(p是parent的缩写) hadoop archive -archiveName ...原创 2014-12-29 16:42:51 · 124 阅读 · 0 评论 -
HA 下执行JAVA操作hdfs
1 拷贝HA中core.xml和hdfs.xml文件到工程src下2 java代码,其中ns1是nameservice名称public class HDFSHATest { public static void main(String[] args) throws Exception { Configuration conf = new Configuration...原创 2016-01-14 19:02:13 · 178 阅读 · 0 评论 -
HIVE的安装与使用
1 解压到目录2 配置文件修改元数据保存到mysql 3 创建表,就是在hdfs中创建一个文件夹,load数据就是将数据文件拷贝到hdfs表对应的目录下面。 4 创建表(默认为表类型为MANAGED_TABLE,数据是在表的目录下面): 数据就是文件,它可以一次插入一个文件数据,但不能插入一条数据。CREATE TABLE page_vie (viewTime i...原创 2016-01-15 20:19:26 · 78 阅读 · 0 评论 -
Hbase集群安装
1.上传hbase安装包 2.解压 3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了)注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_55//告诉hbase使用外部的...原创 2016-01-19 10:17:09 · 68 阅读 · 0 评论 -
Hbase 的Java API 操作
Hbase 的Java API 操作 package com.wzt.dao;//package hbaseExec2;/** 创建一个students表,并进行相关操作*/import java.io.IOException;import java.util.ArrayList;import java.util.List;import or...原创 2016-01-19 16:00:25 · 81 阅读 · 0 评论 -
storm 的安装使用
storm 应用场景:事实的数据流处理 大数据系列: 1、安装一个zookeeper集群 2、上传storm的安装包,解压 3、修改配置文件storm.yaml #所使用的zookeeper集群主机storm.zookeeper.servers: - "weekend05" - "weekend06" - "we...原创 2016-01-19 17:42:15 · 85 阅读 · 0 评论 -
kafka使用与安装
集群安装1、解压2、修改server.propertiesbroker.id=1zookeeper.connect=weekend05:2181,weekend06:2181,weekend07:2181 3、将zookeeper集群启动 4、在每一台节点上启动broker启动的时候 如果虚拟机内存不足需要添加在kafka-server-start.s...原创 2016-01-21 20:03:57 · 72 阅读 · 0 评论 -
Hive基本语法使用
1 创建表以及表的关联查询2 外部表的使用 3 复杂数据类型的使用 4 分区的使用5 桶的使用与理解 6 官方文档https://cwiki.apache.org/confluence/display/Hive/Home一、 创建表以及表的关联查询1) 创建表hive> create table student(name STRING,age...原创 2014-12-17 18:42:45 · 108 阅读 · 0 评论 -
Hive基本语法使用
1 创建表以及表的关联查询2 外部表的使用 3 复杂数据类型的使用 4 分区的使用5 桶的使用与理解 6 官方文档https://cwiki.apache.org/confluence/display/Hive/Home一、 创建表以及表的关联查询1) 创建表hive> create table student(name STRING,ag...原创 2014-12-17 18:43:16 · 88 阅读 · 0 评论 -
Sqoop
sqoop的使用----sqoop是一个用来在hadoop体系和关系型数据库之间进行数据互导的工具----实质就是将导入导出命令转换成mapreduce程序来实现 sqoop安装:安装在一台节点上就可以了。 1.上传sqoop 2.安装和配置----修改配置文件 sqoop-env.sh(没有就创建一个)#Set path to where bi...原创 2016-01-26 15:00:27 · 143 阅读 · 0 评论 -
2.x MapReduce的测试类
1 wordcount2 倒排序3 自定义分区(不同规则输出到不同的文件)4 自定义文件输出5 统计文件流 1 自定义输出类 package com.wzt.mapreduce.custom;import java.io.IOException;import org.apache.hadoop.conf.Configuration;...原创 2016-01-27 09:58:01 · 74 阅读 · 0 评论 -
MapReduce中自定义Combiner
以下作为自己的学习记录。1 MapReduce中数据的整个处理流程。 Map输出数据->key排序并且计算partintion->Map本地所有数据数据Combiner->shuffle中的自定义排序->自定义分组->reduce中数据汇总例子:一、 自定义Combiner使用1 自定义Combiner import o...原创 2016-01-28 19:07:41 · 345 阅读 · 0 评论 -
MapReduce2中自定义排序分组
1 Map 、Reduce和主类 package com.wzt.mapreduce.secondsort;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.h...原创 2016-01-28 19:18:37 · 110 阅读 · 0 评论 -
Hadoop2.x动态添加或删除datanode
1 涉及到的命令:hadoop-daemon.sh start namenodehadoop-daemon.sh start datanode yarn-daemon.sh start resourcemanageryarn-daemon.sh start nodemanageryarn node -list ./hdfs dfsadmin -refresh...原创 2016-01-29 14:01:23 · 273 阅读 · 0 评论 -
hadoop 2.x集群安装与配置
集群中启动hadoop过程:./zkServer.sh start 启动所有的zookeeper ,机器中会有QuorumPeerMain进程 ./start-dfs.sh 启动dfs会启动所有的namenode 和datanode,zkfs ./start-yarn.sh 启动yarn ,会启动ResourceManager和nodemanager./yarn-dae...原创 2016-01-14 10:41:33 · 305 阅读 · 0 评论 -
zookeeper安装
1 下载zookeeper 2 解压到安装目录 3 拷贝conf下zoo_sample.cfg配置文件为zoo.cfg 4 tickTime=2000 # The number of ticks that the initial # synchronization phase can takeinitLimit=10# The number of tic...原创 2016-01-13 10:07:09 · 69 阅读 · 0 评论 -
Hadoop基于文件的数据结构
1 SequenceFile的理解 (1)SequenceFile是Hadoop用来存储二进制形式的对而设计的一种平面文件(Flat File); (2)可以把SequenceFile当做一个容器,把所有文件打包到SequenceFile类中可以高效的对小文件进行存储和处理; (3)SequenceFile文件并不按照其存储的key进行排序存储,SequenceFile...原创 2014-12-31 15:02:12 · 114 阅读 · 0 评论 -
Hadoop 中数据的序列化与反序列化
1 作用:序列化和反序列化就是结构化对象和字节流之间的转换,主要用在内部进程的通讯和持久化存储方面2 个人理解:因为hadoop 网络传输和本地文件保存比较多,序列化的数据更加方便的进行数据通信和对象的持久化 3 实现接口WritableableComparable 并且实现序列化与反序列化的方法 ,注意写入参数和读出的参数顺序一直就可以了 (write和readField方法)...原创 2014-12-31 16:25:42 · 234 阅读 · 0 评论 -
重新编译Hadoop
hadoop在window中ELipse中执行,有错误:riviledgedActionException as:Administrator cause:java.io.IOException: Failed to set permissions of 需要修改 org.apache.hadoop.fs.FileUtil中的 方法checkReturnValue注释...原创 2015-01-26 16:54:02 · 110 阅读 · 0 评论 -
Hadoop1.2.1elipse插件的安装
1. 下载hadoop插件hadoop-eclipse-plugin-1.2.1.jar2. 下载hadoop的1.2.1版本并解压到Elipse工作空间里3. 把下载hadoop插件放到eclipse的plugins中,重启Elipse4. 左侧"Project Explorer"视图下面发现"DFS Locations...原创 2014-07-30 19:42:59 · 99 阅读 · 0 评论 -
Hadoop 学习与安装
虚拟机: 桥接模式:可以局域网共享 NAT模式:如果只是自己用的话用这种 学习目标: 使用Hadoop分布式系统(HDFS)来海量存储数据集,通过MapReduce堆这些数据集运行分布式计算 熟悉Hadoop的数据和IO组件,用于压缩、数据集成、序列化和持久处理 熟悉编写MapReduce实际应用时的常见陷阱和高级特性 设计...原创 2014-08-20 18:02:20 · 102 阅读 · 0 评论 -
Hbase 安装与基本使用
单点模式1 选择Hbase版本要与hadoop版本相对应.下载地址:http://mirrors.cnnic.cn/apache/hbase 2 安装,解压下载的tar文件 3 配置conf/hbase-site.xml 去配置hbase.rootdir,来选择Hbase将数据写到哪个目录单机配置,只需要如下配置hbase-site.xml:<property> <...原创 2014-08-20 18:04:17 · 140 阅读 · 0 评论 -
SequenceFile和MapFile使用
Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗磁盘空间(每一个小文件占用一个Block,HDFS默认block大小为64M)。解决办法通常是选择一个容器,将这些小文件组织起来统一存储。HDFS提供了两种类型的容器,分别是SequenceFile和MapFile。 1 SequenceFile使...原创 2015-12-18 14:37:26 · 295 阅读 · 0 评论 -
java对HDFS中文件的操作
1 概述:1 1 Hadoop 提供一类api可以通过java工程操作hdfs中的文件,包括:文件打开,读写,删除等、 目录的创建,删除,读取目录中所有文件等。2 2 需要处理hadoop的文件程序需要引入下面jar包,可以hadoop-1.2.1\lib找到。 hadoop-core和common-log,comm...原创 2014-11-21 15:52:27 · 993 阅读 · 0 评论 -
Hadoop 2.x单节点部署学习。
1 环境 hadoop-2.5.2 ubuntu 64位服务器 jdk1.7.0_72(tar文件,直接解压到usr/local ,配置环境变量)2 所需要的软件,不同linux安装软件方式可能不一样 : $ sudo apt-get install ssh $ sudo apt-get install rsync3 下载hadoop:http://www....原创 2015-12-30 14:44:24 · 115 阅读 · 0 评论 -
hadoop 2.x wordcount练习
一、 本地环境运行:(也可以本地程序调用hdfs的数据,但必须指定运行的用户,或者将分布式数据权限改成所有人都可以读写,否则权限异常elipse中可以设置-DHADOOP_USER_NAME=hadoop ) 程序不在集群中运行。(数据可以是本地地址 也可以是hdfs地址(hdfs://cloud:9000/wc/wordcount/input))1 设置环境 ...原创 2016-01-09 15:40:50 · 89 阅读 · 0 评论 -
Hadoop中MapReduce的一些关键词理解
Map-Reduce几个输入格式的理解:1 当执行hadoop任务的时候FileInputFormat会得到一个文件夹的路径(需要分析的文件在这个路径中,hadoop默认不会读取子目录)2 把这些文件进行分片(input split),分片的个数决定Map执行对象的个数,Map越多消耗资源越多(文件越大,速度越快原因:hdfs有个默认的块大小,一个文件小于默认值,则分为一片...原创 2014-11-24 18:33:58 · 440 阅读 · 0 评论 -
Hadoop的WordCount编写
1 hadoop的wordCount就像学编程时候的helloWord 一样,是编写程序的一个开始。 程序可以根据注释加以理解:/*** @ClassName: WordCount2 * @Description: 执行:1 打成jar包 2 上传到hadoop服务器中 3 利用hadoop命令执行(输入和输出参数用文件夹)* 如: bin/hadoop ...原创 2014-11-25 09:22:40 · 94 阅读 · 0 评论 -
Hive的安装
环境 Centos 5.5 (32位) , hadoop-1.2.1 ,hive-0.14.0(替代品spark可以学一下) 目录: 1 Hive 来历与作用 2 Hive官网 3 Hive 安装的三种模式 4 安装前提 (Hadoop 与mysql已经安装并测试完毕) 5 安装Hive 6 配置环境变量 并生效 7 创建Hive的配...原创 2014-12-01 12:54:20 · 70 阅读 · 0 评论 -
strom使用示例
strom程序开发需要几个组件1 Topology 即程序的主要入口 main,配置文件要通过主函数加载后放到conf中,然后bolt才能拿到,./conf可以到jar包中得到配置文件。2 Sport 程序的数据来源 3 bolt程序处理节点 ,一个程序可能n个bolt节点 。 一 Topology import backtype.storm.Con...原创 2016-04-05 09:22:01 · 173 阅读 · 0 评论