Hadoop_JokerCao的博客-CSDN博客

Hadoop

关注

文章平均质量分 80

关注数：文章数：23 文章阅读量：176027 文章收藏量：17

作者: JokerCao

这个作者很懒，什么都没留下…

展开

centos6.4+hadoop2.2.0 spark伪伪分布式安装

hadoop版本是2.2.0的稳定版本下载地址spark版本：spark-0.9.1-bin-hadoop2 下载地址http://spark.apache.org/downloads.html这里的spark有三个版本： For Hadoop 1 (HDP1, CDH3): find an Apache mirror or direct file download

原创 2014-05-21 11:35:16 · 2199 阅读 · 0 评论
sparkPi在yarn模式下运行

编写运行脚本

原创 2014-07-29 18:19:57 · 3655 阅读 · 0 评论
spark on yarn 能输出结果但出现AssertionError

今天在spark1.0.1上面自己写了一个javawordcount 然后打成jar包提交到yarn上面执行：运行到最后可以在hadoop的stdout里边看到正常的结果输出hadoop: 1: 1hello: 32.2.0: 1world: 1复制代码但是在stderr里边出现in 4.089 s14/08/05 13:

原创 2014-08-05 14:16:54 · 5420 阅读 · 0 评论
配置hadoop2.2.0的时候出现错误：could not resolve hostname HotSpot(TM): Name or service not know

错误如下：[hadoop@cluster1 hadoop-2.2.0]$ sbin/stop-all.sh This script is Deprecated. Instead use stop-dfs.sh and stop-yarn.sh14/08/10 07:07:57 WARN util.NativeCodeLoader: Unable to load native-hadoop

原创 2014-08-12 13:19:38 · 12527 阅读 · 1 评论
hadoop 2.2.0伪分布式安装

一：系统准备篇1.修改hostname[hadoop@cluster1 ~]$ cat /etc/sysconfig/networkNETWORKING=yesHOSTNAME=cluster1[hadoop@cluster1 ~]$ cat /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 local

原创 2014-08-12 14:55:52 · 2353 阅读 · 0 评论
sqoop的安装与使用

Sqoop即 SQL to Hadoop ，是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具，充分利用MapReduce并行特点以批处理的方式加快数据传输，发展至今主要演化了二大版本，Sqoop1和Sqoop2。 Sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁，支持关系型数据库和hive、hdfs，hbase之间数据的相互导入，可以使用全表导入和增量导入。那么为什么选择Sqoop呢？高效可控的利用资源，任务并行度，超时时间。数据类型映射与转化，可自动进行，用户

原创 2014-10-21 18:44:54 · 7652 阅读 · 0 评论
elasticsearch 与 hive集成

ElasticSearch是一个基于Lucene构建的开源，分布式，RESTful搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。hive

原创 2014-10-08 18:38:47 · 18928 阅读 · 5 评论
explore your hadoop data and get real-time results

explore your hadoop data and get real-time results 深度api集成使你大数据访问更加容易

翻译 2014-10-13 11:01:37 · 1708 阅读 · 0 评论
《深入浅出pig系列之一》pig-0.12.0-cdh5.1.2的安装与运行

这里使用的版本是cdh发行的pig-0.12.0-cdh5.1.2 下载地址点这里1.Pig简介： Pig是yahoo捐献给apache的一个项目，它是SQL-like语言，是在MapReduce上构建的一种高级查询语言，把一些运算编译进MapReduce模型的Map和Reduce中，并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:S

原创 2014-10-13 19:22:54 · 2869 阅读 · 0 评论
在Maprecue中利用MultipleOutputs输出多个文件

用户在使用Mapreduce时默认以part-＊命名，M

原创 2014-10-14 10:26:53 · 2971 阅读 · 0 评论
spark启动master时提示端口8080被占用SelectChannelConnector@0.0.0.0:8080: java.net.BindException

在root权限下通过命令netstat -apn | grep 8080

原创 2014-07-10 14:52:16 · 35812 阅读 · 2 评论
spark 1.0 在hadoop-2.0.0-cdh4.2.0上面安装成功

因为我的hadoop版本是cdh发行的4.2.0所以我直接在spark官网上下载了spark1.0 for hadoop cdh 4.2.0下载地址如下：http://spark.apache.org/downloads.html http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-cdh4.tgz下载完解压到hadoop目

原创 2014-07-10 18:10:38 · 12346 阅读 · 0 评论
HBase和Hive整合后，在Hive shell中执行建表语句时错误信息如下 HiveException:Not a host:port pair: PBUF

HBase和Hive整合后，在Hive shell中执行建表语句时错误信息如下：

原创 2014-06-18 14:07:46 · 2993 阅读 · 0 评论
spark on yarn第一个程序（为小象插上翅膀）

首先借用淘宝明风的图说明下spark on yarn的架构：

原创 2014-05-22 11:47:33 · 2367 阅读 · 0 评论
Maven 创建java web project 添加struts支持 jqwidgets生成折线图

首先通过maven创建java web project第一

原创 2014-06-06 14:02:58 · 1572 阅读 · 0 评论
Maven java通过jdbc连接Hive 执行HQL语句

lrwxrwxrwx. 1 hadoop hadoop 12 May 14 09:53 hadoop -> hadoop-2.2.0drwxr-xr-x. 10 hadoop hadoop 4096 May 14 16:45 hadoop-2.2.0 lrwxrwxrwx. 1 hadoop hadoop 15 May 16 15:38 hive -

原创 2014-06-06 17:16:50 · 9073 阅读 · 2 评论
maven hadoop2.2.0 java.io.IOException: Cannot initialize Cluster

Exception in thread "main" java.io.IOException: Cannot initialize Cluster. Please check your configuration for mapreduce.framework.name and the correspond server addresses. at org.apache.ha

原创 2014-06-10 13:54:02 · 2479 阅读 · 1 评论
hdfs文件校验 hdfs fsck

[hadoop@localhost ~]$ hdfs fsck /user/hadoop/spark/data/SogouQ1.txt -files -blocks -locations14/07/22 15:32:11 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... u

原创 2014-07-22 15:39:16 · 3449 阅读 · 0 评论
Hadoop MapRduce 重写DBOutputFormat更新mysql数据库

在http://blog.csdn.net/sunflower_cao/article/details/28266939 写过可以通过继承

原创 2014-06-11 15:36:04 · 4110 阅读 · 2 评论
新版api mapreduce reduce结果写入mysql

import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.text.ParseExcep

原创 2014-06-03 16:02:10 · 3858 阅读 · 0 评论
spark-shell on yarn 出错（arn application already ended,might be killed or not able to launch applic）解决

今天想要将spark-shell 在yarn-client的状态下结果出错：[hadoop@localhost spark-1.0.1-bin-hadoop2]$ bin/spark-shell --master yarn-clientSpark assembly has been built with Hive, including Datanucleus jars on classpa

原创 2014-07-22 17:49:15 · 23552 阅读 · 4 评论
spark java api通过run as java application运行的方法

先上代码：这是spark 自带的一个example 之前只能将代码达成jar包然后在spark的bin目录下面通过spark-class来运行，这样我们就没办法将spark的程序你很好的融合到现有的系统中，所以我希望通过java函数调用的方式运行这段程序，在一段时间的摸索和老师的指导下发现根据报错的意思应该是没有将jar包提交到spark的worker上面导致运行的worker找不到被

原创 2014-07-08 16:40:39 · 12033 阅读 · 2 评论
Choosing Between ElasticSearch, MongoDB & Hadoop

Choosing Between ElasticSearch, MongoDB & Hadoop

翻译 2014-10-13 09:39:12 · 2107 阅读 · 0 评论

Hadoop

作者: JokerCao

centos6.4+hadoop2.2.0 spark伪伪分布式安装

sparkPi在yarn模式下运行

spark on yarn 能输出结果 但出现AssertionError

配置hadoop2.2.0的时候出现错误：could not resolve hostname HotSpot(TM): Name or service not know

hadoop 2.2.0伪分布式安装

sqoop的安装与使用

elasticsearch 与 hive集成

explore your hadoop data and get real-time results

《深入浅出pig系列之一》pig-0.12.0-cdh5.1.2的安装与运行

在Maprecue中利用MultipleOutputs输出多个文件

spark启动master时提示端口8080被占用SelectChannelConnector@0.0.0.0:8080: java.net.BindException

spark 1.0 在hadoop-2.0.0-cdh4.2.0上面安装成功

HBase和Hive整合后，在Hive shell中执行建表语句时错误信息如下 HiveException:Not a host:port pair: PBUF

spark on yarn第一个程序（为小象插上翅膀）

Maven 创建java web project 添加struts支持 jqwidgets生成折线图

Maven java通过jdbc连接Hive 执行HQL语句

maven hadoop2.2.0 java.io.IOException: Cannot initialize Cluster

hdfs文件校验 hdfs fsck

Hadoop MapRduce 重写DBOutputFormat更新mysql数据库

新版api mapreduce reduce结果写入mysql

spark-shell on yarn 出错（arn application already ended,might be killed or not able to launch applic）解决

spark java api通过run as java application运行的方法

Choosing Between ElasticSearch, MongoDB & Hadoop

spark on yarn 能输出结果但出现AssertionError