hadoop
文章平均质量分 72
行走江湖
方向:分布式计算、实时流计算、数据挖掘、后台开发、NoSQL、Hadoop/HBase、Unix/Linux、Java、C/C++、Python。
联系方式:http://t.qq.com/X-L2008
QQ:394102339
展开
-
Hadoop安装部署
花了两天时间把Hadoop 0.18.3部署到了RedHat 9上。总结一下思路。环境:RedHat 9 + Hadoop 0.18.3 + JDK 1.6u14新建一个用户: howard首先,从SUN上下载了JDK 1.6u14(使用Hadoop必须保证JDK在1转载 2011-09-27 12:54:20 · 385 阅读 · 0 评论 -
Thirft框架介绍
1、前言Thrift是一个跨语言的服务部署框架,最初由Facebook于2007年开发,2008年进入Apache开源项目。Thrift通过一个中间语言(IDL, 接口定义语言)来定义RPC的接口和数据类型,然后通过一个编译器生成不同语言的代码(目前支持C++,Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C#, Cocoa, Smallt转载 2011-12-04 17:54:50 · 432 阅读 · 0 评论 -
使用hadoop存储图片服务器 使用hadoop存储图片服务器
公司的一个服务需要存储大量的图片服务器,考虑使用hadoop的hdfs来存放图片文件.以下是整个架构思路: 使用hadoop作为分布式文件系统,hadoop是一个实现了HDFS文件系统和MapReduce的开源项目,我们这里只是使用了它的hdfs.首先从web页面上上传的文件直接调用hadoop接口将图片文件存入hadoop系统中,hadoop可以设定备份数,这样在hadoop系统中转载 2014-03-12 20:20:54 · 2862 阅读 · 1 评论 -
yarn hadoop mapreduce 2.0 编译
下载[zhouhh@h185 ~]$ wget http://labs.mop.com/apache-mirror/hadoop/chukwa/stable/chukwa-0.4.0.tar.gz[zhouhh@h185 ~]$ wget http://labs.mop.com/apache-mirror/hadoop/common/hadoop-2.0.1-alpha/hadoop-2.0转载 2014-03-27 12:51:21 · 666 阅读 · 0 评论 -
windows下eclipse开发hadoop连接虚拟机linux配置的问题
linux中对应的hdfs和mapreduce端口已经配好但是当eclipse中的hadoop插件安装并配置好后,却无法连接右下角状态栏一直显示connecting to dfs...后来终于知道原因,原来是linux防火墙的问题,需要将linux下对应的端口tcp协议访问打开在linux下输入iptables -I INPUT -p tcp --d转载 2014-05-05 10:06:27 · 1083 阅读 · 0 评论 -
map reduce相关程序
Test_1.java/** * Hadoop网络课程模板程序 * 编写者:James */ import java.io.IOException;import java.text.DateFormat;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoo转载 2014-05-08 00:13:55 · 463 阅读 · 0 评论 -
eclipse下提交job时报错mapred.JobClient: No job jar file set. User classes may not be found.
windows下,连接远程集群,直接在eclipse里运行mapreduce作业时,错误信息:11/10/14 13:52:07 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.11转载 2014-05-07 18:09:26 · 685 阅读 · 0 评论 -
SUSE Linux 64位环境下编译hadoop2.2.0源码
OS环境:SUSE Linux Enterpriser Server 11 SP2 (64位)Mission:由于apache官网所提供的编译好的Hadoop-2.2.0-tar.gz 只兼容32位系统,安装在64位系统下会出现各种兼容性错误。故,需要在64位系统下,对hadoop-2.2.0源码进行重新编译。START:准备工作:步骤 :1、安装JDK转载 2014-03-27 09:44:06 · 813 阅读 · 0 评论 -
为SUSE Linux添加软件安装源的方法(图文)
添加软件安装源无疑是一个很好的解决方式 在SUSE Linux 上添加软件安装源方法如下:在终端命令行下Java代码 #yast2 进入yast2 管理界面,点击软件安装源 下一步就是点击添加了 这里主要是说明一下源的路径是在哪里找到的 http://download.opensuse.org/distribution/11.4转载 2014-03-27 09:48:51 · 1147 阅读 · 0 评论 -
Hadoop 1.1.2分布式安装过程 (vmware10+centeros5.4 64位+hadoop1.1.2+ securecrt)
Hadoop 1.1.2分布式安装过程 (vmware10+centeros5.464位+hadoop1.1.2+ securecrt) 安装环境虚拟机:vmware10操作系统:centeros5.4 64位Hadoop版本:hadoop1.1.2Securecrt7.0.0jdk-7u51-linux-x64.gz 1 虚拟机环境配置原创 2014-04-22 21:26:49 · 1323 阅读 · 0 评论 -
Hadoop 常用命令
* 文件操作 * 查看目录文件 * $ hadoop dfs -ls /user/cl * * 创建文件目录 * $ hadoop dfs -mkdir /user/cl/temp * * 删除文件 * $ hadoop dfs -rm /user/cl/temp/a.txt * * 删除目录与目录下所有文件 * $ hadoop dfs -rmr转载 2014-05-12 20:46:50 · 464 阅读 · 0 评论 -
Hadoop管理员的十个最佳实践
转载自:http://www.infoq.com/cn/articles/hadoop-ten-best-practice前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。转载 2014-05-23 21:10:53 · 394 阅读 · 0 评论 -
Hadoop中Mapper类的setup()函数在什么地方调用
经过跟踪hadoop源码发现,Mapper类的setup()函数在Mapper类的run()函数中被调用。向hadoop提交job后,hadoop会在MapTask的runNewMapper()或者runOldMapper()函数中使用反馈机制实例化具体的Mapper子类,然后调用这个对象的run()函数,其中setup()函数就在这个函数的开始被调用,因为hadoop会向setup()函转载 2014-06-01 11:49:20 · 1112 阅读 · 0 评论 -
Hadoop之hive学习
1. hive是针对什么问题提出的? 之前有什么解决方案吗?超大结构化数据集,超出了一般MPP 的存储能力。MPP海量并行处理数据库的强项在于CPU,实时处理能力强,但其空间比较紧张;而hadoop的存储能强,但cpu的实时处理能力比较弱。Hive是一个基于hadoop的数据仓库。所以,二者是一个互补的关系。并且,逐渐的,二者会相互融合。2. hive在转载 2014-07-12 20:56:32 · 520 阅读 · 0 评论 -
分布式计算框架Hadoop介绍(1)
Hadoop是一个软件平台,是Apache开源组织的一个分布式计算开源框架,可以让你很容易地开发和运行处理海量数据的应用。Hadoop框架中最核心的设计就是:MapReduce和HDFS,也可以说是Hadoop是基于分布式文件系统(HDFS)的MapReduce的实现。转载 2011-10-09 18:17:41 · 505 阅读 · 0 评论 -
Hadoop C++ Pipes中context常见成员函数的作用
getJobConf¶Get the JobConf for the current taskgetInputKey¶Get the current keygetInputValue¶Get the current valueIn the redu转载 2011-10-10 12:25:53 · 833 阅读 · 0 评论 -
MapReduce 编程模型在日志分析方面的应用
简介日志分析往往是商业智能的基础,而日益增长的日志信息条目使得大规模数据处理平台的出现成为必然。MapReduce 处理数据的有效性为日志分析提供了可靠的后盾。本文将以对访问网页用户的日志进行分析,进而挖掘出用户兴趣点这一完整流程为例,详细解释 MapReduce 模型的转载 2011-10-09 19:50:44 · 576 阅读 · 0 评论 -
Hadoop Streaming
Hadoop MapReduce和HDFS采用Java实现,默认提供Java编程接口,另外提供了C++编程接口和Streaming框架。Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。Streami转载 2011-10-10 17:03:19 · 854 阅读 · 0 评论 -
Hadoop客户端环境配置
1. 安装客户端(通过端用户可以方便的和集群交互)2. 修改客户端~/.bashrcalias hadoop='/home/work/hadoop/client/hadoop-client/hadoop/bin/hadoop' #hadoop 可执行文件位置ali转载 2011-10-10 17:05:14 · 1021 阅读 · 0 评论 -
Hadoop Streaming 实战: grep
streaming支持shell 命令的使用。但是,需要注意的是,对于多个命令,不能使用形如cat; grep 之类的多命令,而需要使用脚本,后面将具体介绍。 下面示例用grep检索巨量数据: 1. 待检索的数据放入hdfs $ hadoop fs转载 2011-10-10 17:20:18 · 564 阅读 · 0 评论 -
Hadoop Streaming 实战: bash脚本
streaming支持使用脚本作为map、reduce程序。以下介绍一个实现分布式的计算所有文件的总行数的程序 1. 待检索的数据放入hdfs $ hadoop fs -put localfile /user/hadoop/hadoopfile转载 2011-10-10 17:53:24 · 487 阅读 · 0 评论 -
Hadoop Streaming 实战: 文件分发与打包
如果程序运行所需要的可执行文件、脚本或者配置文件在Hadoop集群的计算节点上不存在,则首先需要将这些文件分发到集群上才能成功进行计算。Hadoop提供了自动分发文件和压缩包的机制,只需要在启动Streaming作业时配置相应的参数。 1. –file 将本地文件分发到计转载 2011-10-10 18:24:45 · 568 阅读 · 0 评论 -
在Redhat AS6上搭建Hadoop集群总结
于本周末在家里的两台电脑上用Vmware+Redhat As6 + hadoop-0.21.0上搭建了一个3节点的Hadoop集群,虽说是原来已经搭建过类似的集群了,也跑过JavaAPI来操作HDFS与Map/reduce,但是这一次依然是受到挑战了,好些小细节,稍有遗漏就会有如转载 2011-09-30 17:18:45 · 750 阅读 · 0 评论 -
用hadoop计算气象数据温度的最大值
The FilesYou need 3 files to run the maxTemperature example:a C++ file containing the map and reduce functions,a data file contain转载 2011-10-09 18:20:50 · 2034 阅读 · 0 评论 -
面向MapReduce 的数据处理流程开发方法 ------------重点内容摘要
摘 要:数据处理流程在信息爆炸的今天被广泛应用并呈现出海量和并行的特点, MapReduce 编程模型的简单性和高性价比使得其适用于海量数据的并行处理, 但是 MapReduce 不支持多数据源的数据处理, 不能直接应用于具有多个处理操作、多个数据流分支的数据处理流程转载 2011-10-09 19:58:22 · 700 阅读 · 0 评论 -
谈Hadoop的C++扩展
原文在 http://blog.sina.com.cn/s/blog_6e273ebb0100pid0.html 长期一来,Hadoop因为其Java实现带来的性能问题而饱受争议,同时也涌现了很多方案来缓解这一问题。Jeff Hammerbacher(Cloude转载 2011-10-10 12:30:28 · 742 阅读 · 0 评论 -
Map-Reduce简介
MapReduce是一种编程模型,始于:Dean, Jeffrey & Ghemawat, Sanjay (2004). "MapReduce: Simplified Data Processing on Large Clusters"。主要应用于大规模数据集的并行运算。其将并行转载 2011-10-10 14:02:34 · 531 阅读 · 0 评论 -
Hadoop MapReduce
Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,可以使没有并行处理或者分布式计算经验的工程师,也能很轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程序。Had转载 2011-10-10 14:07:19 · 378 阅读 · 0 评论 -
用hadoop统计文本中单词的个数
The FilesYou need 3 files to run the wordCount example:a C++ file containing the map and reduce functions,a data file containing s转载 2011-10-09 19:22:23 · 1633 阅读 · 0 评论 -
hadoop 资料收集
BEA Tuxedo 10.0 Documentation.url http://wiki.apache.org/hadoop/Hbase/HbaseArchitectureC_C++ 常见问题.url C转载 2011-10-09 19:30:43 · 616 阅读 · 0 评论 -
正式生产环境下hadoop集群的DNS+NFS+ssh免密码登陆配置
环境虚拟机centos6.5 主机名h1 IP 192.168.137.11 作为DNS FNS的服务器 主机名h2 IP 192.168.137.12主机名h3 IP 192.168.137.13建立DNS(为了取代集群修改hosts带来的大量重复工作) 1.安装DNS在h1上面 检查命令: rpm –q转载 2014-08-17 19:04:21 · 833 阅读 · 0 评论