hadoop学习之
RichardLeeH
这个作者很懒,什么都没留下…
展开
-
使用sqoop将mysql数据导入到hdfs
一、安装测试前准备1:安装集群:如下2:sqoop版本和hadoop版本3:mysql 连接器 和 测试数据 如下:二、sqoop配置2.1、sqoop环境变量2.1.1、修改sqoop_env.sh2.1.2、修改configure-sqoo原创 2013-11-29 10:17:53 · 2340 阅读 · 0 评论 -
生产环境下hadoop集群配置之DNS配置实验
一、实验环境:Mac os 下 VirtualBox中三台安装centos 6.3虚拟机主机名别名IP地址系统版本角色lhmasterlhmaster.lihui.hadoop192.168.1.4Centos 6.3master原创 2013-12-18 15:35:22 · 2816 阅读 · 0 评论 -
生产环境下hadoop集群配置之awk生成hadoop拷贝脚本
一、实验环境:Mac os 下VirtualBox中三台安装centos 6.3虚拟机 主机名别名IP地址系统版本角色lhmasterlhmaster.lihui.hadoop192.168.1.4Centos 6.3服务器lhs原创 2013-12-21 16:08:48 · 1764 阅读 · 0 评论 -
生产环境下hadoop集群配置实验
一、实验环境:本文的环境搭建是: Mac OS 中利用virtualbox虚拟三台基于centos的服务器。如下图IP 域名配置表如下:主机名别名IP地址系统版本角色lhmasterlhmaster.lihui.hadoop192.168.1.原创 2013-12-21 17:52:29 · 1345 阅读 · 0 评论 -
Hadoop 中的数据倾斜
转自:http://www.gemini5201314.net/big-data/hadoop-中的数据倾斜.html最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖转载 2014-01-09 17:39:01 · 929 阅读 · 0 评论 -
Hadoop pig进阶语法
转自: http://www.cnblogs.com/siwei1988/archive/2012/08/06/2624912.html本文来自与作者阅读 Programming Pig 所做的笔记。Pig Latin是一种数据流语言,变量的命名规则同java中变量的命名规则,变量名可以复用(不建议这样做,这种情况下相当与新建一个变量,同时删除原来的变量)A转载 2013-12-27 12:03:21 · 988 阅读 · 0 评论 -
mapreduce 自定义key/value 输出分隔符
mapreduce 默认情况下 key/value 分隔符为:“\t”测试的输出如下:我们可以在代码中进行设置来自定义 key/value 输出分隔符:在代码中添加如下一行代码:conf.set("mapred.textoutputformat.separator", ";"); //此处以”;“作为分割符,后边介绍为什么这么修改修改代码后,测试修改结果:原创 2013-12-27 10:53:18 · 5736 阅读 · 0 评论 -
利用Hadoop实现超大矩阵相乘之我见(一)
转自:http://www.cnblogs.com/eczhou/p/3340731.html 前记最近,公司一位挺优秀的总务离职,欢送宴上,她对我说“你是一位挺优秀的程序员”,刚说完,立马道歉说“对不起,我说你是程序员是不是侮辱你了?”我挺诧异,程序员现在是很低端,很被人瞧不起的工作吗?或许现在连卖盗版光盘的,修电脑的都称自己为搞IT的,普通人可能已经分不清搞IT的到转载 2014-01-17 14:43:42 · 1278 阅读 · 0 评论 -
关于编译thrift0.9.1报错
文章地址:http://123firecloud.com/index.php/hadoop/thrift-build-error.html转载 2014-03-20 13:46:58 · 963 阅读 · 0 评论 -
NCDC气象数据
在ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/目录下没有直接年份的数据了。需要在下层的isd-lite目录下文件的内容也变成1949 01 01 07 -28 -9999 -9999 180 67 8 -9999 -99991949 01 01 12 -28 -9999 -9999 180 67转载 2014-07-30 15:32:41 · 4919 阅读 · 1 评论 -
如何下载NCDC气象数据
Hadoop 权威指南中需要下载NCDC气象数据原创 2014-07-31 13:00:18 · 11865 阅读 · 0 评论 -
Hadoop 2.x build native library on Mac os x
转自:http://www.micmiu.com/bigdata/hadoop/hadoop-build-native-library-on-mac-os-x/转载 2014-08-06 16:57:50 · 1556 阅读 · 0 评论 -
在30分钟内为StackOverflow创建一个包含XML 和JSON的OData API
转自:http://blogs.msdn.com/b/scott_hanselman/archive/2011/12/13/45-win7-winxp.aspx转载 2014-08-21 16:25:18 · 1546 阅读 · 0 评论 -
thrift使用过程中的问题
转自:http://blog.csdn.net/hoho568/article/details/7321611#comments1. thrift的安装,不容小视,他需要依赖很多的库和工具,尤其是boost等工具都需要源码安装,所以严格按照官网上的信息,一步一步执行就可以来。 http://thrift.apache.org/download/ 有两转载 2013-12-06 17:13:57 · 982 阅读 · 0 评论 -
trhift configure: error: "Error: libcrypto
转自:http://my.oschina.net/lxrm/blog/161344安装Thrift的时候遇到,如下错误#./configure --prefix=/usr/local/thrifttrhift configure: error: "Error: libcrypto required."解决办法:安装 openssl openssl转载 2013-12-06 12:58:51 · 5003 阅读 · 0 评论 -
Hadoop集群搭建
一、部署前准备本文的环境搭建是: Mac OS 中利用virtualbox虚拟三台基于centos的服务器。如下图 Hadoop部署之前必备软件:JDK、SSH、Hadoop-1.1.2版本。二、部署过程说明本次部署部署的最终结果是:一台master,两台slave组成的集群。详细操作步骤如下。2.1、必备软件准备安装JDK,SSH安装配置2原创 2013-12-04 16:58:34 · 803 阅读 · 0 评论 -
MacOS下Hadoop平台搭建过程说明
一、引言本文的环境搭建是: Mac OS X 10.7.5。Hadoop部署之前必备软件:JDK、SSH、Hadoop-1.0.4版本。二、部署过程说明参考网上相关资源,本文进行Hadoop伪分部环境部署详细操作步骤如下。2.1、必备软件准备安装JDK,SSH安装配置2.1.1、安装JDKMacOS 默认为我们安装了openjava,我们原创 2013-11-29 10:22:42 · 865 阅读 · 0 评论 -
如何生成hadoop-1.1.2-eclipse开发插件
一、hadoop项目解压将hadoop-1.1.2.tar.gz解压到随意目录。比如:二、修改build-contrib.xml文件 2.1、修改build-contrib.xml内容 将Xml代码替换为 三修改 /Users/lihui/hadoop-1.1.2\src\co原创 2013-11-29 10:27:45 · 907 阅读 · 0 评论 -
Zookeeper集群安装
一、zookeeper解压zookeeper官网下载二进制压缩包,本教程中解压到如下目录二、zookeeper环境变量设置环境变量设置如下:三、zookeeper配置文件修改本集群有三个节点如下修改conf/zoo.cfg修改后内容如下:四、将配置的zookeeper分发到lhs原创 2013-11-29 10:30:18 · 1129 阅读 · 0 评论 -
HBase集群安装
一、HBase解压HBase官网下载二进制压缩包,本教程中解压到如下目录二、HBase环境变量设置环境变量设置如下:三、hbase-env.sh文件修改 hbase-env.sh中加入export JAVA_HOME exportHBASE_CLASSPATH如下:四、hbase-site.xml原创 2013-11-29 10:31:03 · 962 阅读 · 0 评论 -
安装Mahout,并运行20newsgroup的测试样例
1:安装配置 mahoutmahout安装目录如下: 环境变量配置: 测试mahout安装是否成功:运行 mahout 出现如下结果证明安装成功。 2:数据准备:将下载的20news数据放到本地如下目录中: 3:建立训练集运行如下命令:mahout org.apache.mahout.classifier.bayes.PrepareTwentyNew原创 2013-11-29 10:32:44 · 1264 阅读 · 0 评论 -
Hadoop集群搭建
一、部署前准备本文的环境搭建是: Mac OS 中利用virtualbox虚拟三台基于centos的服务器。如下图 Hadoop部署之前必备软件:JDK、SSH、Hadoop-1.1.2版本。二、部署过程说明本次部署部署的最终结果是:一台master,两台slave组成的集群。详细操作步骤如下。2.1、必备软件准备安装JDK,SSH安装配置2原创 2013-11-29 10:25:55 · 873 阅读 · 0 评论 -
HIVE安装及简单测试
一、 HIVE环境变量配置如下图:二、 生成hive-env.sh 和 hive-site.xml定位到 /hive-0.11.0/conf目录下,将hive-env.sh.template 和hive-default.xml.template 分别拷贝为 hive-env.sh 和 hive-site.xml,如下图:三HIVE环境变量配置hive-env.s原创 2013-11-29 11:05:06 · 997 阅读 · 0 评论 -
thrift安装手册
thrift安装手册 1 简介...32 准备工作...32.1 基本要求...32.2 源代码编译要求...32.3 编译语言要求...42.4 不同操作系统的要求...42.4.1 CentOS.42.4.2 OS X..5Boost 安装...5libevent 安装...原创 2013-12-06 13:26:45 · 1847 阅读 · 0 评论 -
java 通过thrift-0.9.1读取hbase表数据
java 通过thrift-0.9.1读取hbase表数据 测试环境准备l 本次测试的系统为centos 6.3, 首先安装如下必备软件l jdk l eclipsel hadoop (本次测试版本为官方发布版1.2.1),具体配置参考博客链接 http://blog.csdn.net/lihuinihao/article/de原创 2013-12-08 11:05:26 · 2023 阅读 · 0 评论 -
PIG安装配置及案例应用
转自:http://www.itpub.net/thread-1735647-1-1.html1.各组件版本Linux ISO:CentOS-6.0-i386-bin-DVD.iso 32位JDK version:"1.6.0_25-ea"Hadoop software version:hadoop-0.20.205.0.tar.gzHbas转载 2013-12-01 14:42:19 · 1101 阅读 · 0 评论 -
stackoverflow数据下载
stackoverflow数据下载地址:原创 2014-08-21 16:30:21 · 5238 阅读 · 1 评论