![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 60
学战到底
这个作者很懒,什么都没留下…
展开
-
hadoop之FileSystem操作
创建Java项目,File->New->Java Project,命名为TestHDFS采用单元测试做实验,加入单元测试依赖包,项目导航栏里右键Build Path->Add Libraries->JUnit,以上操作完成如下:API编程——FileSystem操作" title="Hadoop API编程——FileSystem操作" style="margin:0p转载 2016-05-09 16:03:46 · 1196 阅读 · 0 评论 -
Hadoop生态系统简介
Hadoop生态系统主要包括:Hive、HBase、Pig、Sqoop、Flume、ZooKeeper、Mahout、Spark、Storm、Shark、Phoenix、Tez、Ambari。Hive:用于Hadoop的一个数据仓库系统,它提供了类似于SQL的查询语言,通过使用该语言可以方便地进行数据汇总,特定查询以及分析存放在Hadoop兼容文件系统中的大数据。HBase:一种分布的、可原创 2016-07-06 20:43:58 · 1517 阅读 · 0 评论 -
Hadoop各主流版本的介绍
1、Apache Hadoop2.0版本,有以下模块:Hadoop通用模块,支持其他Hadoop模块的通用工具集;Hadoop分布式文件系统(HDFS),支持对应用数据高吞吐量访问的分布式文件系统;Hadoop YARN,用于作业调度和集群资源管理的框架;Hadoop MapReduce,基于YARN的大数据并行处理系统。Hadoop目前除了社区版,还有众多厂商的发行版本。原创 2016-07-06 20:12:29 · 7115 阅读 · 0 评论 -
Kmeans
在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下:输入:参数0--存储样本数据的文本文件inputfile; 参数1--存储样本数据的SequenceFile文件inputPath; 参数2--存储质心数据的SequenceFile文件centerPath; 参数3--存储聚类结果文件转载 2016-07-05 22:00:18 · 683 阅读 · 0 评论 -
Mapreduce中使用多线程的问题
在项目中遇到了Mapreduce使用多线程的问题,在此记录、讨论一下。需实现流程是读取关键词文件中的关键词,根据关键词搜索图片,爬取相关的图片的地址,开启线程下载、转换图片。每个关键词开启一个maptask,搜索获取多图片地址,开启多线程执行下载和转化过程,由于Mapreduce是多进程模式,执行多线程时各线程的执行状况无法控制,那么整个下载和转化过程就无法严格控制,无法获取完成map任务进入原创 2016-06-01 21:46:45 · 3759 阅读 · 1 评论 -
问题记录-python写mapper测试时出现urllib.error.HTTPError: HTTP Error 404: Not Found
hadoop@ub1401:~/python/pythonfile$ cat keyword.txtsheep 2dog,3firework 3hadoop@ub1401:~/python/pythonfile$ cat keyword.txt | ./mappertest1-1.pyTraceback (most recent call last): File "./mappert原创 2016-05-12 21:42:09 · 15984 阅读 · 0 评论 -
单机测试python编写的mapper时出现/usr/bin/python3^M: bad interpreter: No such file or directory
在单机测试python编写的mapper时出现hadoop@ub1401:~/hadoop/hadoopfile$ cat keywords-blank-1.txt|./PictureDownloadMapper.pybash: ./PictureDownloadMapper.py: /usr/bin/python3^M: bad interpreter: No such file or原创 2016-05-12 10:53:08 · 4970 阅读 · 0 评论 -
PipeMapRed.waitOutputThreads(): subprocess failed with code N
转载:http://blog.csdn.net/liuxincumt/article/details/6076903经常遇到的exception是:PipeMapRed.waitOutputThreads(): subprocess failed with code N"OS error code 1: Operation not permitted""OS error c转载 2016-05-11 16:02:12 · 1003 阅读 · 0 评论 -
mapreduce采用多进程与spark采用多线程比较
转自:Mapreduce多进程与spark多线程Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Spark则直接采用了开源软件Akka,该软转载 2016-06-01 21:37:56 · 4519 阅读 · 0 评论 -
Hadoop 提交任务执行流程总结
用流水线可表示任务执行流程如下:input(k1,v1) -> map -> (k2,v2) -> combine -> shuffle(partitioner) -> sort -> (k2,v2) -> reduce -> (k3,v3) ->output接着来段大白话,聊一聊:一,input(通过FileInputFormat设置),此步主要工作:转载 2016-08-21 21:13:52 · 2450 阅读 · 0 评论 -
Mahout源码目录说明
mahout项目是由多个子项目组成的,各子项目分别位于源码的不同目录下,下面对mahout的组成进行介绍:1、mahout-core:核心程序模块,位于/core目录下;2、mahout-math:在核心程序中使用的一些数据通用计算模块,位于/math目录下;3、mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下;上述三个部分是转载 2016-08-11 17:07:57 · 878 阅读 · 0 评论 -
Reduce类
转自:Reduce类,保存在此,有助于Reduce执行过程的理解。4.4 Reduce类4.4.1 Reduce介绍整完了Map,接下来就是Reduce了。YarnChild.main()—>ReduceTask.run()。ReduceTask.run方法开始和MapTask类似,包括initialize()初始化,根据情况看是否调用runJobCleanupTask(),run转载 2016-11-12 00:49:31 · 1255 阅读 · 0 评论 -
KMeans聚类算法Hadoop实现
转自:KMeans聚类算法Hadoop实现,保存在此以学习。Assistance.java 辅助类,功能详见注释[java] view plain copy package KMeans; import org.apache.hadoop.conf.Configuration; import org.apac转载 2016-11-18 21:42:01 · 1114 阅读 · 0 评论 -
HDFS文件操作
转自:使用java api操作HDFS文件,保存在此以学习。全部程序如下:[java] view plain copyimport java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import org.转载 2016-11-19 16:39:57 · 3206 阅读 · 0 评论 -
MapReduce中自定义文件输出名
转自:MapReduce中自定义文件输出名,保存在此以学习。MR的输出结果默认为part-r-00000,我们可自定义易识别的名字替代part,如score-r-00000[java] view plain copy job.setOutputFormatClass(MyOut.class);转载 2016-11-19 21:40:12 · 2892 阅读 · 0 评论 -
ubuntu配置SSH免密码登陆,提示Permission denied (publickey).
在使用EC2的ubuntu实例创建Hadoop集群时,配置ssh密钥出现问题:ubuntu@ip-172-31-30-202:~$ ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/home/ubuntu/.ssh/id_rsa): Enter原创 2016-11-20 20:46:33 · 22258 阅读 · 2 评论 -
问题记录:hadoop集群提交job时出现Exception in thread "main" java.io.IOException: Error opening job jar:
在向hadoop集群提交job时提示以下错误:ubuntu@ip-172-31-9-9:~/hadoopfile/feature$ hadoop jar /home/ubuntu/hadoopfile/feature/feature-getpoint7.jar /feature/in feature/out1Exception in thread "main" java.io.IOExcep原创 2016-07-18 19:14:23 · 4129 阅读 · 1 评论 -
问题记录:hadoop+zookeeper高可用性集群启动时出现namenode均为standby状态
去年在Amazon上手动搭建了八个结点的小集群做测试,两个namenode,一个yarn,五个datanode,距离上次使用大概有两个月的时间,之前用的时候都没问题,今天启动后正常查看hdfs上的文件时报错如下:ubuntu@ip-172-31-9-9:~$ hadoop fs -ls /16/07/18 06:52:48 INFO retry.RetryInvocationHandler:原创 2016-07-18 15:26:16 · 8690 阅读 · 0 评论 -
通过源代码认识Context的作用
转自:认识Context,保存在此学习。我们通过来源码,来得到Context的作用:下面主要对Setup函数进行深入探讨:首先看下两个程序的区别: 区别在于第一个程序把context这个上下文对象作为map函数的参数传到map函数中,第二个程序则是在setup函数中处理了context对象,从这个角度讲,在Map类的实例中是可以拿到Context这转载 2016-07-11 01:16:26 · 808 阅读 · 0 评论 -
[Hadoop源码解读](二)MapReduce篇之Mapper类
转自[hadoop源代码解读](二)MapReduce篇之Mapper类,保存在此以学习。这一篇里,开始对Mapper.class的子类进行解读。 先回忆一下。Mapper有setup(),map(),cleanup()和run()四个方法。其中setup()一般是用来进行一些map()前的准备工作,map()则一般承担主要的处理工作,cleanup()则是收尾工作如转载 2016-07-12 16:04:52 · 622 阅读 · 0 评论 -
MapReduce 图解流程超详细解答(1)-【map阶段】
转自:MapReduce 图解流程超详细解答(1)-【map阶段】,保存在此以学习。在MapReduce中,一个YARN 应用被称作一个job, MapReduce 框架提供的应用,master的一个实现被称作MRAppMaster MapReduce Job的时间线MapReduce Job 运行的时间线:Map Phase:若干 Map Ta转载 2016-07-12 16:24:17 · 3796 阅读 · 0 评论 -
hdfs获取文件列表,利用正则表达式选择文件并作下一步处理
Configuration conf = new Configuration(); FileSystem hdfs = FileSystem.get(URI.create(args[1]),conf); FileStatus[] listStatus = hdfs.listStatus(new Path(args[1])); Path[] listPath = FileUtil.stat2P原创 2016-05-10 15:47:55 · 3760 阅读 · 0 评论 -
使用Python写Map-Reduce程序
http://www.michael-noll.com/wiki/Writing_An_Hadoop_MapReduce_Program_In_Python,这篇文章写得不错,不过在服务器上有些Python的库根本都没有安装,所以我将代码小小修改了一下。Python比Java更适合做快速开发,学学怎么通过Python语言编写Map-Reduce程序是很有价值的, 首先编写一个实现转载 2016-05-09 15:15:42 · 2320 阅读 · 0 评论 -
hadoop中Streaming的使用
Streaming简介 Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大,今天简单说一下。Streaming的原理是用Java实现一个包装用户程序的MapReduce程序,该程序负责调用MapReduce Java接口获取key/value对输入,创建一个转载 2016-05-09 15:12:25 · 703 阅读 · 0 评论 -
hadoop使用javaAPI实现hdfs常见操作(转载于http://www.cnblogs.com/xuqiang/archive/2011/06/03/2042526.html)
. 概述 hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中,这些api能够支持的操作包含:打开文件,读写文件,删除文件等。hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方法存在几个重载版本,常用的是这个:static FileSystem get(Config转载 2016-03-05 22:18:32 · 923 阅读 · 0 评论 -
ubuntu14.04+eclipse(mars)+hadoop-2.7.1开发环境调试程序出现log4j:WARN no appenders could be found for logger。。
初次使用ubuntu14.04+eclipse(mars)+hadoop-2.7.1开发环境调试程序时,选中main-》run as hadoop 提示如下警告:log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARN原创 2016-01-10 19:22:42 · 12924 阅读 · 1 评论 -
hadoop配置好之后启服务,jps能看到datanode进程,可是后台的datanode日志有如下错误,且50070端口上也是没有活的节点
2015-04-22 14:17:29,908 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: For namenode master/192.168.1.100:53310 using DELETEREPORT_INTERVAL of 300000 msec BLOCKREPORT_INTERVAL of 21600000msec I转载 2015-09-07 20:19:39 · 1113 阅读 · 0 评论 -
Hadoop源码分析之DataNode的启动与停止
时间 2014-02-17 17:12:50 CSDN博客原文 http://blog.csdn.net/workformywork/article/details/18792637主题 HadoopDataNode的启动分可以为两个部分,创建DataNode对象和启动DataNode节点。DataNode.main()方法会调用DataNode.secureM转载 2015-09-07 20:51:36 · 887 阅读 · 0 评论 -
hadoop中启动namenode等出现的一些问题
hadoop的配置是参考这篇教程的http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/初次配置运行没什么问题MapReduce的例子也能正常运行,但是等若干天后再次运行时遇到了如下的问题:hadoop@ubuntu:~$ hadoop/bin/start-a原创 2015-09-07 16:30:35 · 764 阅读 · 0 评论 -
hadoop---自定义输出文件格式以及输出到不同目录
转自: hadoop编程小技巧(7)---自定义输出文件格式以及输出到不同目录,保存在此以学习。代码测试环境:Hadoop2.4应用场景:当需要定制输出数据格式时可以采用此技巧,包括定制输出数据的展现形式,输出路径,输出文件名称等。Hadoop内置的输出文件格式有:1)FileOutputFormat 常用的父类;2)TextOutputFormat 默认转载 2016-07-13 01:08:43 · 6192 阅读 · 0 评论 -
MapReduce之多MapReduce执行
转自:【Apache Hadoop】MapReuce 编程总结-多MapReduce执行,保存在此以学习。学习hadoop,必不可少的就是写MapReduce程序,当然,对于简单的分析程序,我们只需一个MapReduce就能搞定,这里就不提单MapReuce的情况了,网上例子很多,大家可以百度Google一下。对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行转载 2016-07-15 16:25:30 · 5333 阅读 · 0 评论 -
Mahout学习之Mahout简介、安装、配置、入门程序测试
一、Mahout简介查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了...附logo:(就是他,骑在象头上的那个Mahout) 步入正文啦: Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等转载 2016-07-15 17:00:16 · 1247 阅读 · 0 评论 -
hadoop常见问题及其解决办法
转自Hadoop使用常见问题以及解决方法(转载),保存在此以学习。1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序 里面需要打开多个文件 ,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文转载 2016-07-18 15:51:16 · 5857 阅读 · 0 评论 -
Amazon EC2上配置集群出现zookeeper启动失败的排错
转自:zookeeper启动失败的排错,保存在此以学习。1.执行zkServer.sh start 后显示:JMX enabled by defaultUsing config:/home/hadoop/app/zookeeper-3.4.5/bin/../conf/zoo.cfgStarting zookeeper ... STARTED2.jps原创 2016-11-21 04:00:38 · 5318 阅读 · 0 评论