hadoop
WitsMakeMen
这个作者很懒,什么都没留下…
展开
-
eclipse下第一个hadoop程序出现错误ClassCastException
java.lang.ClassCastException: interface javax.xml.soap.Text at java.lang.Class.asSubclass(Unknown Source) at org.apache.hadoop.mapred.JobConf.getOutputKeyComparator(JobConf.java:599) at org.apache.原创 2012-12-06 10:55:25 · 1975 阅读 · 0 评论 -
Hadoop中如何正确编写继承自Writable借口的子类
Hadoop中可以编写自己的类,用作hadoop job的key或者value类型,自己编写的类要实现借口Writable。我编写了一个HttpContent类,主要用于保存爬取网页的源码,返回状态和编码格式信息,他在mapper中别实例化保存网页内容,然后传输到reducer中被使用,在编写中遇到了一些问题:(1)首先是没有编写默认的构造函数类,因为java中的反馈机制需要一个参数为空的原创 2012-12-26 19:43:05 · 1439 阅读 · 0 评论 -
Hadoop中Mapper类的setup()函数在什么地方调用
经过跟踪hadoop源码发现,Mapper类的setup()函数在Mapper类的run()函数中被调用。向hadoop提交job后,hadoop会在MapTask的runNewMapper()或者runOldMapper()函数中使用反馈机制实例化具体的Mapper子类,然后调用这个对象的run()函数,其中setup()函数就在这个函数的开始被调用,因为hadoop会向setup()函数中原创 2012-12-27 20:27:21 · 9570 阅读 · 0 评论 -
Hadoop: MapReduce使用hdfs中的文件
本代码包含功能:获取DataNode名,并写入到HDFS文件系统中的文件hdfs:///copyOftest.c中。并计数文件hdfs:///copyOftest.c中的wordcount计数,有别于Hadoop的examples中的读取本地文件系统中的文件,这次读取的是HDFS中的文件。package com.fora;import java.io.IOException;impor转载 2013-11-28 17:50:57 · 11383 阅读 · 0 评论 -
Hadoop的Python框架指南
http://www.oschina.net/translate/a-guide-to-python-frameworks-for-hadoop最近,我加入了Cloudera,在这之前,我在计算生物学/基因组学上已经工作了差不多10年。我的分析工作主要是利用Python语言和它很棒的科学计算栈来进行的。但Apache Hadoop的生态系统大部分都是用Java来实现的,也是为Jav转载 2014-04-01 15:35:32 · 8904 阅读 · 0 评论 -
使用Python实现Hadoop MapReduce程序
转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in Python根据上面两篇文章,下面是我在自己的ubuntu上的运行过程。文字基本采用博文使用Python实现Hadoop MapReduce程序, 打字很浪费时间滴。 在这个实例中,我将会向大家介绍如何使用Pyt转载 2014-04-01 15:52:39 · 1205 阅读 · 0 评论 -
hadoop 伪分布式环境配置
http://xuyuanshuaaa.iteye.com/blog/1063303一. 概要 经过几天的调试,终于在Linux Cent OS 5.5下成功搭建Hadoop测试环境。本次测试在一台服务器上进行伪分布式搭建。Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop 本身是无转载 2014-04-01 11:00:17 · 1142 阅读 · 0 评论 -
Linux环境Hadoop伪分布模式安装详解
http://www.cnblogs.com/zhangwenjing/p/3583350.html伪分布式模式下,Hadoop将所有进程运行于同一台主机上,但此时Hadoop将使用分布式文件系统,而且各jobs也是由JobTracker服务管理的独立进程。同时,由于伪分布式的Hadoop集群只有一个节点,因此HDFS的块复制将限制为单个副本,其secondary-master和sla转载 2014-04-01 11:00:41 · 2578 阅读 · 0 评论 -
从hadoop框架与MapReduce模式中谈海量数据处理
转自:http://blog.csdn.net/v_july_v/article/details/6704077 从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之转载 2014-08-12 18:00:37 · 1358 阅读 · 0 评论 -
Hive和hbase区别
链接:https://www.zhihu.com/question/21677041Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据。Hive本身不存储数据,它完全依赖HDFS和MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表,并提供完整的SQL查询功能,并将SQL语句最终转换为MapReduce任务进行运行。 而HBase表是物理表,适合存放非结构化的数据。H...转载 2018-05-16 16:28:58 · 213 阅读 · 0 评论 -
hadoop命令
hadoop地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html#ls原创 2018-05-16 20:00:55 · 198 阅读 · 0 评论 -
编写程序时候出现了问题ClassCastException: interface javax.xml.soap.Text
java.lang.ClassCastException: interface javax.xml.soap.Text at java.lang.Class.asSubclass(Unknown Source) at org.apache.hadoop.mapred.JobConf.getOutputKeyComparator(JobConf.java:599) at org.apache.原创 2012-12-25 20:15:25 · 4629 阅读 · 1 评论 -
将hadoop源码.java程序加载到自己的工程中
原因:分析代码的时候,在eclipse中通过Build Path引入的软件包(hadoop-0.20.2-core.jar)是编译后的.class文件,是无法直接修改编译的。要很难跟踪引入包的程序执行过程。解决方案:可以将hadoop的源代码复制到自己的工程中,这样和引入软件包的效果是相同的具体过程:(1)下载hadoop的源代码(到apache官网下载http://download.原创 2012-06-11 19:00:13 · 1248 阅读 · 0 评论 -
Hadoop中map/reduce编程中关于mapper和reducer的Format问题
Hadoop中的map/reduce编程中有几个非常关键的组件,其中包括 Mapper,Reducer,InputFormat,OutputFormat,OutputKeyClass,OutputValueClass 等,在刚接触map/reduce编程的时候很容易由于 InputFormat,OutputFormat,OutputKeyClass,OutputValueClass在程序中的设置转载 2012-12-26 16:12:01 · 2684 阅读 · 0 评论 -
将eclipse下编译的class文件打包成hadoop集群可以运行的jar包的过程
把eclipse下编译的class文件打包成hadoop集群可用文件的过程首先要在eclipse下运行成功,在工程项目下打bin文件夹为jar文件, 压缩方式为: jar -cvf sort.jar -C bin/ . 这个是一个排序程序,代码如下import java.io.IOException;import转载 2012-12-06 20:29:10 · 7317 阅读 · 0 评论 -
如何在eclipse中编写好程序,然后打包成jar文件,在hadoop分布式集群上运行
(1)首先将下载好的hadoop源码解压,将解压后顶级目录和lib中的压缩文件加载到你的工程中(他们包括了hadoop源码和一些需要的第三方源码),然后就可以编写hadoop程序了。(2)编写好hadoop程序,调试没有错误后,就可以通过(jar -cvf yourname.jar -C bin/ .),将工程中bin目录下编译好的.class文件打包成你想要的.jar压缩文件包。(3)将原创 2012-12-06 21:17:16 · 12285 阅读 · 3 评论 -
MapReduce:超大机群上的简单数据处理(google三驾马车)
摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写的程序能自动的在大规模的普通机器上实现并行化.这个运行时系统关心这些细节:分割输入数据,在机转载 2012-12-10 20:17:29 · 1319 阅读 · 0 评论 -
Google's BigTable 原理(google三驾马车)
Google's BigTable 原理 (翻译) 题记:google 的成功除了一个个出色的创意外,还因为有 Jeff Dean 这样的软件架构天才。 ------编者 官方的 Google Reader blog 中有对BigTable 的解释。这是Google 内部开发的转载 2012-12-10 20:20:48 · 1391 阅读 · 0 评论 -
为什么hadoop一定是分布式的未来
为什么Hadoop将一定会是分布式计算的未来?版权声明:写本文由leftnoteasy发布于http://leftnoteasy.cnblogs.com 本文可以被全部或者部分的使用,但请注明出处,如果有问题,可以联系wheeleast (at) gmail.com, 也可以加我的新浪微博:http://weibo.com/leftnoteasy前言: 很久没有写转载 2012-12-10 20:02:31 · 1042 阅读 · 0 评论 -
Google File System(google三驾马车)
Google文件系统 GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。1、设计概览 (1)设计想定 GFS与过去的分布式文件系统有很多相同的目标,但GFS的设计受到了当前及预期的应用方面的工作量及技术环境的驱动,这反映了它与早期的文件系统明显不同的设想。这转载 2012-12-10 20:19:29 · 1806 阅读 · 0 评论 -
Hadoop之个性化数据类型
Hadoop在与用户写的Mapper和Reducer通信的时候,总是使用类型化的数据:从文件读入到Mapper中,Mappers向Reducers提交和Reducers到输出文件,都是存储在Java对象中的。Writable 类型可以和文件和网络相互通信的对象必须遵循特定的接口,叫做Writable,它允许Hadoop以一种序列化的形式读写数据以适应于传输。Hadoop提供了几个已转载 2012-12-24 14:23:58 · 763 阅读 · 0 评论 -
Hadoop之个性化键类型
前面我们的Piont3D类型能够作为一个值来满足mapper的使用。但是如果我们也想用Point3D对象作为键呢?在Hadoop的MR中,如果向一个reduce任务分发不同的(key, value)对,reducer将有序地对键进行处理。所以键的类型必须实现一个更加严格的接口,WritableComparable。除了它是一个Writable,可以被在网络传输之外,它们也遵循Java的Compar转载 2012-12-24 14:29:40 · 834 阅读 · 0 评论 -
关于Hadoop的InputFormat类
org.apache.hadoop.mapreduce.InputFormat是一个抽象类,关于这个抽象类的功能描述如下:首先为Job验证输入;将输入的文件分成逻辑上的splits,每个split会被应用到一个单独的mapper上;提供RecorderReader的实现,用来从逻辑split中一点一点的收集数据到mapper中。这个抽象类中,有两个抽象方法需要实现:1.转载 2012-12-24 14:45:56 · 947 阅读 · 0 评论 -
HDFS跨集群数据合并方案之ViewFileSystem
转自:https://blog.csdn.net/androidlushangderen/article/details/51315618前言在很多时候,我们会碰到数据融合的需求,比如说原先有A集群,B集群,后来管理员认为有2套集群,数据访问不方便,于是设法将A,B集群融合为一个更大的集群,将他们的数据都放在同一套集群上.一种办法就是用Hadoop自带的DistCp工具,将数据进行跨集群的拷贝...转载 2018-12-07 17:56:30 · 363 阅读 · 0 评论