Hadoop
文章平均质量分 80
JokerCao
这个作者很懒,什么都没留下…
展开
-
centos6.4+hadoop2.2.0 spark伪伪分布式安装
hadoop版本是2.2.0的稳定版本 下载地址spark版本:spark-0.9.1-bin-hadoop2 下载地址http://spark.apache.org/downloads.html这里的spark有三个版本: For Hadoop 1 (HDP1, CDH3): find an Apache mirror or direct file download原创 2014-05-21 11:35:16 · 2199 阅读 · 0 评论 -
sparkPi在yarn模式下运行
编写运行脚本原创 2014-07-29 18:19:57 · 3655 阅读 · 0 评论 -
spark on yarn 能输出结果 但出现AssertionError
今天在spark1.0.1上面自己写了一个javawordcount 然后打成jar包 提交到yarn上面执行:运行到最后可以在hadoop的stdout里边看到正常的结果输出hadoop: 1: 1hello: 32.2.0: 1world: 1复制代码但是在stderr里边出现in 4.089 s14/08/05 13:原创 2014-08-05 14:16:54 · 5420 阅读 · 0 评论 -
配置hadoop2.2.0的时候出现错误:could not resolve hostname HotSpot(TM): Name or service not know
错误如下:[hadoop@cluster1 hadoop-2.2.0]$ sbin/stop-all.sh This script is Deprecated. Instead use stop-dfs.sh and stop-yarn.sh14/08/10 07:07:57 WARN util.NativeCodeLoader: Unable to load native-hadoop原创 2014-08-12 13:19:38 · 12527 阅读 · 1 评论 -
hadoop 2.2.0伪分布式安装
一:系统准备篇1.修改hostname[hadoop@cluster1 ~]$ cat /etc/sysconfig/networkNETWORKING=yesHOSTNAME=cluster1[hadoop@cluster1 ~]$ cat /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 local原创 2014-08-12 14:55:52 · 2353 阅读 · 0 评论 -
sqoop的安装与使用
Sqoop即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理的方式加快数据传输,发展至今主要演化了二大版本,Sqoop1和Sqoop2。 Sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive、hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入。那么为什么选择Sqoop呢? 高效可控的利用资源,任务并行度,超时时间。 数据类型映射与转化,可自动进行,用户原创 2014-10-21 18:44:54 · 7652 阅读 · 0 评论 -
elasticsearch 与 hive集成
ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。hive原创 2014-10-08 18:38:47 · 18928 阅读 · 5 评论 -
explore your hadoop data and get real-time results
explore your hadoop data and get real-time results 深度api集成使你大数据访问更加容易翻译 2014-10-13 11:01:37 · 1708 阅读 · 0 评论 -
《深入浅出pig系列之一》pig-0.12.0-cdh5.1.2的安装与运行
这里使用的版本是cdh发行的pig-0.12.0-cdh5.1.2 下载地址点这里1.Pig简介: Pig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:S原创 2014-10-13 19:22:54 · 2869 阅读 · 0 评论 -
在Maprecue中利用MultipleOutputs输出多个文件
用户在使用Mapreduce时默认以part-*命名,M原创 2014-10-14 10:26:53 · 2971 阅读 · 0 评论 -
spark启动master时提示端口8080被占用SelectChannelConnector@0.0.0.0:8080: java.net.BindException
在root权限下通过命令netstat -apn | grep 8080原创 2014-07-10 14:52:16 · 35812 阅读 · 2 评论 -
spark 1.0 在hadoop-2.0.0-cdh4.2.0上面安装成功
因为我的hadoop版本是cdh发行的4.2.0所以我直接在spark官网上下载了spark1.0 for hadoop cdh 4.2.0下载地址如下:http://spark.apache.org/downloads.html http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-cdh4.tgz下载完解压到hadoop目原创 2014-07-10 18:10:38 · 12346 阅读 · 0 评论 -
HBase和Hive整合后,在Hive shell中执行建表语句时错误信息如下 HiveException:Not a host:port pair: PBUF
HBase和Hive整合后,在Hive shell中执行建表语句时错误信息如下:原创 2014-06-18 14:07:46 · 2993 阅读 · 0 评论 -
spark on yarn第一个程序(为小象插上翅膀)
首先借用淘宝明风的图说明下spark on yarn的架构:原创 2014-05-22 11:47:33 · 2367 阅读 · 0 评论 -
Maven 创建java web project 添加struts支持 jqwidgets生成折线图
首先通过maven创建java web project第一原创 2014-06-06 14:02:58 · 1572 阅读 · 0 评论 -
Maven java通过jdbc连接Hive 执行HQL语句
lrwxrwxrwx. 1 hadoop hadoop 12 May 14 09:53 hadoop -> hadoop-2.2.0drwxr-xr-x. 10 hadoop hadoop 4096 May 14 16:45 hadoop-2.2.0 lrwxrwxrwx. 1 hadoop hadoop 15 May 16 15:38 hive -原创 2014-06-06 17:16:50 · 9073 阅读 · 2 评论 -
maven hadoop2.2.0 java.io.IOException: Cannot initialize Cluster
Exception in thread "main" java.io.IOException: Cannot initialize Cluster. Please check your configuration for mapreduce.framework.name and the correspond server addresses. at org.apache.ha原创 2014-06-10 13:54:02 · 2479 阅读 · 1 评论 -
hdfs文件校验 hdfs fsck
[hadoop@localhost ~]$ hdfs fsck /user/hadoop/spark/data/SogouQ1.txt -files -blocks -locations14/07/22 15:32:11 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... u原创 2014-07-22 15:39:16 · 3449 阅读 · 0 评论 -
Hadoop MapRduce 重写DBOutputFormat更新mysql数据库
在http://blog.csdn.net/sunflower_cao/article/details/28266939 写过可以通过继承原创 2014-06-11 15:36:04 · 4110 阅读 · 2 评论 -
新版api mapreduce reduce结果写入mysql
import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.text.ParseExcep原创 2014-06-03 16:02:10 · 3858 阅读 · 0 评论 -
spark-shell on yarn 出错(arn application already ended,might be killed or not able to launch applic)解决
今天想要将spark-shell 在yarn-client的状态下 结果出错:[hadoop@localhost spark-1.0.1-bin-hadoop2]$ bin/spark-shell --master yarn-clientSpark assembly has been built with Hive, including Datanucleus jars on classpa原创 2014-07-22 17:49:15 · 23552 阅读 · 4 评论 -
spark java api通过run as java application运行的方法
先上代码:这是spark 自带的一个example 之前只能将代码达成jar包然后在spark的bin目录下面通过spark-class来运行,这样我们就没办法将spark的程序你很好的融合到现有的系统中,所以我希望通过java函数调用的方式运行这段程序,在一段时间的摸索和老师的指导下发现根据报错的意思应该是没有将jar包提交到spark的worker上面 导致运行的worker找不到被原创 2014-07-08 16:40:39 · 12033 阅读 · 2 评论 -
Choosing Between ElasticSearch, MongoDB & Hadoop
Choosing Between ElasticSearch, MongoDB & Hadoop翻译 2014-10-13 09:39:12 · 2107 阅读 · 0 评论