![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 78
一无所有自知之明
热爱生命偶尔悲悯的乐观孩子
展开
-
linux(centos6)下 hadoop安装之ssh配置脚本 permission denied
配置ssh费老劲了!以前没玩过linux,学到很多东西,命令熟了很多1.首先是修改 /etc/ssh/sshd_config ssh的配置文件其中#行指注释掉得主要的几个:Protocol 2 ←去掉# 修改后变为此状态,仅使用SSH2ServerK原创 2011-10-14 11:08:55 · 6303 阅读 · 0 评论 -
cdh4b1之HDFS的HA(High Availability)原理简介
0 引入 以前Hadoop版本中,NameNode是HDFS集群的单点故障(single point of failure,SPoF),SPoF指系统中这个部件失效或停止运转将会导致整个系统不能工作。而这在下面两种情况出现: (1) 意外事件如机器crash,集群直到重启NameNode操作执行后才可用; (2) 计划维修事件,如Na翻译 2012-04-19 10:03:59 · 3010 阅读 · 0 评论 -
用MR(MapReduce)查询hbase数据-用到TableMapper和Scan
首先,可以设置scan的startRow, stopRow, filter等属性。于是两种方案:1.设置scan的filter,然后执行mapper,再reducer成一份结果2.不用filter过滤,将filter做的事传给mapper做进行了测试,前者在执行较少量scan记录的时候效率较后者高,但是执行的scan数量多了,便容易导致超时无返回而退出的情况。而为了实现后者,学会了如何原创 2012-01-12 20:32:15 · 27937 阅读 · 13 评论 -
eclipse写MAPREDUCE程序对HBase表进行操作之 IndexBuilder(对已有表建索引)
开源 hbase的example/mapreduce里有个类IndexBuilder是用来对已有表建索引的。其代码有一点点需要修改conf.set(TableInputFormat.SCAN, TableMapReduceUtil.convertScanToString(new Scan()));conf.set(TableInputFormat.SCAN, convertScanToSt原创 2012-01-09 20:18:41 · 8841 阅读 · 7 评论 -
实验hbase的test中的TestTableMapReduce类--修改成简单易懂点的
不积跬步,无以至千里!这几天狂看mapreduce对hbase进行操作的例子,消化吸收,熟能生巧,掌握mapreduce和hbase交互的各个细节,以及整体流程等,整体流程等年前写一篇总结下,这几天先狂看吧看,复制,修改,运行,遇到各种问题,解决,慢慢的就熟了。这个类是干啥的呢,其实就是对hbase的某表进行简单操作,不过用的是mapreduce,即效率高,当然,看这个,主要吸收其用m原创 2012-01-10 15:29:53 · 3713 阅读 · 0 评论 -
MR中Partition的使用 源码示例
一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、为何使用Partitioner,主要是想reduce的结果能够根据key再次分类输出到不同的文件夹中。2、结果能够直观,同时做到对数据结果的简单的统计分析。三、实现1、输入的数据文件内容如下(1条数据内容少,1条数据内容超长,3条数据内容正常):kaka 1 28hua 0 26chao原创 2011-12-24 11:35:30 · 2129 阅读 · 0 评论 -
客户端用java api 远程操作HDFS以及远程提交MR任务(源码和异常处理)
两个类,一个HDFS文件操作类,一个是wordcount 词数统计类,都是从网上看来的。上代码:package mapreduce;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;原创 2011-12-22 10:11:57 · 15513 阅读 · 4 评论 -
在mysql/oracle新建列将现有几列连接起来作为其值以用sqoop导入到hbase时作为rowkey
在上一篇文章:sqoop之从oracle导入hbase的问题与sqoop hbase 需要注意的一个问题的最后我提出了一个待研究的问题:对rdbms,如mysql中的一个表,假设有四列,由于hbase的rowkey设计好了会极大提高查询效率,一般将其rowkey用mysql中的三列组合起来,即假设mysql表中为:姓名,出生年月,地点,工资。可以令rowkey为姓名_出生年月_地点原创 2011-11-10 10:15:55 · 5443 阅读 · 2 评论 -
sqoop之从oracle导入hbase的问题与sqoop hbase 需要注意的一个问题
sqoop从oracle导入, 需要有ojdbc6.jar,放在$SQOOP_HOME/lib里,不用添加到classpath里,因为sqoop会自己遍历lib文件夹并添加里面的所有jar包 --connect与mysql的不一样,如下(shell脚本中的主要部分)#Oracle的连接字符串,其中包含了Oracle的地址,SID,和端口号#CONNECTURL=jdbc:oracle:th原创 2011-11-09 20:38:55 · 21207 阅读 · 4 评论 -
Sqoop安装配置与从mysql中导入数据到hbase
1.下载以下三个包: sqoop-1.2.0-CDH3B4.tar hadoop-0.20.2-CDH3B4.tar mysql-connector-java-5.1.18.tar2.解压sqoop包,配置/etc/profile的 SQOOP_HOME为解压位置 在PATH里加上$SQOOP_HOME/bin 新建ZOOKEEPER_HOME为HBASE里zookee原创 2011-11-08 09:38:03 · 11395 阅读 · 15 评论 -
Hive学习笔记1--------Hive入门
(转自淘宝数据平台团队) Hive 是什么 在接触一个新的事物首先要回到的问题是:这是什么? 这里引用 Hive wiki 上的介绍: Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanis转载 2011-11-26 11:37:08 · 1280 阅读 · 0 评论 -
测试HDFS读性能-读到本地缓存,不写硬盘的性能
如果测试读完存到本地文件的话,直接用fs.copyToLocalFile()方法即可,但是如果测试读到缓存的性能,则需要用到FSDataInputStream上代码:/** * @ProjectName: Hadoop预研平台 */package com.hikvision.hdfs.test.performance;import java.io.IOException原创 2013-01-12 11:21:05 · 3356 阅读 · 1 评论