云计算云存储
文章平均质量分 91
昆山人在上海
暂无
展开
-
关于Hadoop的3中运行模式的说明
Hadoop有3种启动模式1. Local (standalone) mode这个是Hadoop的默认运行方式,基本上不需要对hadoop的3个XML文件做任何修改就可以在本机(单机)运行。他不会使用HDFS,也不会启动任何Hadoop的进程,所以主要用于开发和测试2. Pseudo-distributed modehttp://hi.baidu.com/wenbingle原创 2012-01-14 16:56:09 · 1181 阅读 · 0 评论 -
Hadoop家族学习路线图
点击打开链接转载 2013-12-09 12:04:30 · 681 阅读 · 0 评论 -
Hadoop HBase 伪分布式安装 配置
转自:http://blog.csdn.net/gjt19910817/article/details/8847891最近需要配置一个 HDFS 和 HBase 环境,看了网上别人写的博客内容之后发现。很多人写的根本不对,少了步骤,或者根本就是错的,或者配置文件根本写的不对。导致我自己不断出现问题无法搭建出稳定的 HDFS 环境。由于采用伪分布式安装,按照网上的教程安装之后,启动HDFS,有时转载 2013-12-09 11:18:56 · 618 阅读 · 1 评论 -
Hadoop+HBase+ZooKeeper三者关系与安装配置
转自:http://blog.sina.com.cn/s/blog_5c5d5cdf0101dvgq.html这里有几个主要关系:1.经过Map、Reduce运算后产生的结果看上去是被写入到HBase了,但是其实HBase中HLog和StoreFile中的文件在进行flush to disk操作时,这两个文件存储到了HDFS的DataNode中,HDFS才是永久存储。2转载 2013-12-09 11:37:18 · 972 阅读 · 5 评论 -
一个基于Mahout与hadoop的聚类搭建
转自:http://beneo.iteye.com/blog/1179331mahout是基于hadoop的数据挖掘工具,因为有了hadoop,所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R,所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你,如何使用hadoop + mahout搭出一个简易的聚类工具。 第一步:搭建hadoop平台。 我使用转载 2013-12-09 11:55:30 · 955 阅读 · 2 评论 -
使用sqoop将mysql中数据导入到hive中
转自:http://phz50.iteye.com/blog/994782hive是Facebook的产品,最早研发它的目的是用它来对Facebook网站每天产生的海量日志进行分析。有时我们需要分析的数据可能存在数据库中,这时我们可以利用sqoop将mysql中数据导入到hive中。 操作系统:在windows下使用wubi安装了ubuntu 10.10 hadoop版本:hado转载 2013-12-09 12:01:00 · 1076 阅读 · 3 评论 -
Hadoop 2.2 Single-Node Setup
Hadoop 2.2 Single-Node Setup:直接看下面的网页吧:http://codesfusion.blogspot.com/2013/10/setup-hadoop-2x-220-on-ubuntu.html?m=1值得一提的是:上文中提高的几个配置文件里的内容,应该都是XML格式的吧。譬如:core-site.xml应该写: fs.def原创 2013-12-05 05:28:49 · 828 阅读 · 1 评论 -
Hue : the open source Apache Hadoop UI
http://cloudera.github.io/hue/原创 2013-12-20 13:10:11 · 842 阅读 · 0 评论 -
Hadoop 2 + HBase 0.94 相关资料
http://hortonworks.com/blog/using-hive-to-interact-with-hbase-part-2/http://hbase.apache.org/book/quickstart.htmlhttp://blog.csdn.net/kunshan_shenbin/article/details/7210689http://running.iteye.原创 2013-12-26 05:49:54 · 982 阅读 · 1 评论 -
Linux [Mint] 上实现Hadoop 1.2.1 + HBase 0.94.14 + Hive 0.11.0整合
这两年Hadoop发展得很快,一不留神最新的版本已经升级到了2.2。最近打算研究一下Hadoop2,不过在这之前想先回忆一下基于Hadoop1的整合。这里有一些以前整理的资料:http://blog.csdn.net/kunshan_shenbin/article/details/7105319http://blog.csdn.net/kunshan_shenbin/article原创 2013-12-25 10:17:09 · 1286 阅读 · 0 评论 -
Hadoop 2.2.0 + HBase 0.96.1.1 + Hive 0.12.0 整合
安装和部署Hadoop请参照: http://blog.csdn.net/kunshan_shenbin/article/details/17135291安装和部署Hbase,请参照:http://hbase.apache.org/book/quickstart.html至于Hive,官方的版本跟hbase存在兼容性问题,所以我使用Hortonworks的HDP2里的hive 0.12来代原创 2013-12-26 09:08:22 · 2351 阅读 · 1 评论 -
Hortonworks HDP 2.0
Hortonworks : http://hortonworks.com/HDP 2.0 download: http://hortonworks.com/products/hdp-2/?b=1#install原创 2013-12-27 23:49:42 · 953 阅读 · 0 评论 -
Hadoop新MapReduce框架 - YARN
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/http://www.cnblogs.com/LeftNotEasy/archive/2012/02/18/why-yarn.html转载 2013-12-27 12:58:42 · 653 阅读 · 0 评论 -
Apache Pig - Learning Notes
http://www.rohitmenon.com/index.php/apache-pig-tutorial-part-1/http://www.rohitmenon.com/index.php/apache-pig-tutorial-part-2/转载 2013-12-27 21:44:44 · 595 阅读 · 0 评论 -
Twitter Storm:开源实时Hadoop
官方网站:http://storm-project.net/相关资料:http://www.infoq.com/cn/news/2011/09/twitter-storm-real-time-hadoophttp://www.ibm.com/developerworks/cn/opensource/os-twitterstorm/http://xumingming.si转载 2014-01-27 07:26:58 · 697 阅读 · 1 评论 -
Impala入门笔记
http://tech.uc.cn/?p=817问题背景:初步了解Impala的应用重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍写作目的:了解Impala的安装过程初步了解Impala的使用比较Impala与Hive的性能测试适合阅读对象:想了解Impala安装的读者想了解Impala与H转载 2014-03-29 01:33:15 · 740 阅读 · 0 评论 -
windows7+eclipse+hadoop2.5.2环境配置
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2016-02-23 21:03:20 · 411 阅读 · 0 评论 -
Hadoop 1.2.1: Warning: $HADOOP_HOME is deprecated.
在使用Hadoop1.3.1时,遇到如下提示:Warning: $HADOOP_HOME is deprecated.解决办法:在.bashrc文件里,使用HADOOP_PREFIX来替代HADOOP_HOME。原创 2013-12-09 03:55:43 · 721 阅读 · 0 评论 -
Hadoop Streaming: 使用Java以外的语言去实现Map/Reduce
参考资料:http://www.cnblogs.com/luchen927/archive/2012/01/16/2323448.htmlhttp://www.cnblogs.com/luchen927/archive/2012/01/16/2323479.htmlhttp://www.cnblogs.com/luchen927/archive/2012/01/16/23241原创 2013-12-09 08:44:26 · 745 阅读 · 0 评论 -
关于Hadoop中5个主要的守护进程的作用
一般如果正常启动hadoop,我们可以在master上通过jps命令看到以下5个daemons:[root@master ~]# jps19803 SecondaryNameNode19994 TaskTracker31144 Jps19571 NameNode19672 DataNode19887 JobTracker下面依次介绍这些进程:1. NameNod原创 2012-01-14 16:12:11 · 2147 阅读 · 0 评论 -
在Linux系统上部署Hadoop运行环境
参考网页:http://blog.csdn.net/kunshan_shenbin/article/details/6819675操作系统:CentOS 6 (或者Fedora 16)Hadoop将使用最新的1.0.0版本。1. 首先可以考虑更新一下yumyum update2. 安装Java环境wget download.oracle.com/otn-pub/ja原创 2012-01-14 23:18:45 · 967 阅读 · 0 评论 -
构建Hadoop --- MapReduce 环境
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/如果出现localhost: Error: JAVA_HOME is not set. 错误,参考:http://chenwq.iteye.com/blog/1161530官网资料: http://ha转载 2011-09-25 14:44:53 · 731 阅读 · 1 评论 -
基于Hadoop+Hive架构对海量数据进行查询
参考资料:https://cwiki.apache.org/confluence/display/Hive/GettingStarted1. 安装Hadoop并启动。参考资源: single-node :http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/原创 2011-12-27 12:07:34 · 11624 阅读 · 0 评论 -
使用mysql数据库作为Hive的元数据库
在hive/conf文件夹下找到hive-default.xml.template,复制该文件并改名为hive-site.xml。修改一下内容: hive.metastore.local true javax.jdo.option.ConnectionURL jdbc:mysql://master:3306/metastore JDBC原创 2012-01-19 00:24:12 · 3206 阅读 · 1 评论 -
让Hadoop 1.0.0 + HBase 0.90.5 + Hive 0.8.0整合起来
在阅读本文之前,请务必先参阅以下相关内容。1. 基于Hadoop+Hive架构对海量数据进行查询:http://blog.csdn.net/kunshan_shenbin/article/details/71053192. HBase 0.90.5 + Hadoop 1.0.0 集成:http://blog.csdn.net/kunshan_shenbin/article/detail原创 2012-01-19 14:13:55 · 3543 阅读 · 3 评论 -
HBase 0.90.5 + Hadoop 1.0.0 集成
自从Hadoop升级到1.0以后,在与Hive,HBase等集成上经常会出现问题。Hive:http://blog.csdn.net/kunshan_shenbin/article/details/7105319在Hive0.8中写死了与之兼容的Hadoop的版本号(0.2x.x),而Hadoop又偏偏修改了他的版本命名规则,不得已只能重现编译Hive:https://issues.a原创 2012-01-18 23:55:27 · 4478 阅读 · 0 评论 -
Pig 0.9.1 + Hadoop 1.0.0 集成
首先搭建一个Hadoop集群环境,这里略过。下载pig 0.9.1并运行。wget www.apache.org/dist//pig/pig-0.9.1/pig-0.9.1.tar.gzchmod 777 pig-0.9.1.tar.gz tar -zxvf pig-0.9.1.tar.gz mv pig-0.9.1 pigcd pig/bin./pig--原创 2012-01-17 22:56:05 · 1147 阅读 · 0 评论 -
在Hadoop中使用Streaming编写MapReduce
使用PHP编写Map / Reduce代码:wc_mapper.php#!/usr/bin/php<?php error_reporting(0); $in = fopen("php://stdin", "r"); $results = array(); while ( $line = fgets($in, 4096) ) { $words = preg_原创 2012-01-19 23:14:06 · 1094 阅读 · 0 评论 -
通过JDBC驱动连接Hive操作实例
启动Hive远程服务接口:bin/hive --service hiveserver测试代码如下:package com.yuxipacific;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.Statement原创 2012-01-24 08:46:59 · 2232 阅读 · 0 评论 -
基于Java操作HBase数据库
参考资料:http://www.linezing.com/blog/?p=713代码如下:package com.yuxipacific;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configurati原创 2012-01-24 21:19:33 · 931 阅读 · 0 评论 -
Nutla --- lucene + hadoop 分布式搜索运行框架
Nutlahttp://code.google.com/p/nutla/Kattahttp://katta.sourceforge.net/介绍:http://www.iteye.com/topic/366431参考资料:http://www.blogjava.net/nianzai/category/45541.html让Lucene能搜索原创 2012-01-30 06:25:17 · 982 阅读 · 0 评论 -
基于Lucene全文检索引擎的扩展
扩展Lucene的索引文件存储:http://www.oschina.net/question/12_4979在Lucene上扩展创建索引和查询索引功能:http://weich-javadeveloper.iteye.com/blog/548696对lucene查询结果进行分组统计的扩展组件:http://code.google.com/p/bobo-原创 2012-01-29 22:09:02 · 597 阅读 · 0 评论 -
基于Memcached的组件/客户端的用法介绍
Java客户端: xmemcached 和 spymemcached :http://www.iteye.com/news/7717-xmemcached---faster-than-spymemcacheda) XMemcached:http://code.google.com/p/xmemcached/需要slf4j组件的支持 :http://www.slf4j.org/测原创 2012-05-31 14:08:33 · 1242 阅读 · 0 评论 -
基于Riak数据库的Map/Reduce实现
参考资料:http://wiki.basho.com/MapReduce.html#MapReduce-via-the-Erlang-APIhttps://github.com/basho/riak-erlang-client/blob/master/docs/pb-client.txt注意:以下代码尚未完全调试通过,仅供参考。$ erl -pa $PATH_TO_RIAK原创 2012-05-21 16:53:25 · 1117 阅读 · 0 评论 -
在Mac OS X 64bit系统上编译hadoop 2.2源码
因为Hadoop2在官网上预编译的包都是在32位下编译的,在64位系统上可能运行出问题,所以需要在64位系统上编译运行。例如:http://apache.osuosl.org/hadoop/common/hadoop-2.2.0/下载 hadoop-2.2.0-src.tar.gz解压后运行: $ mvn -version $ mvn clean $ mvn ins原创 2013-12-08 11:18:39 · 1014 阅读 · 0 评论 -
Install Single Node Hadoop(2.7.2) on Mac
http://blog.hampisoftware.com/index.php/2016/02/22/install-single-node-hadoop-on-mac/Install Single Node Hadoop on MacOperating System: Mac OSX YosemiteHadoop Version 2.7.2Pre-requisit转载 2016-09-02 11:32:37 · 445 阅读 · 1 评论