hadoop
爱人间
软件工程师,专注于Java后端开发,对微服务架构和云计算有深入研究。在多个大型项目中担任核心开发者,成功实施过高并发、高可用系统的设计与优化。热爱编程,乐于分享,活跃于技术社区。除了java还掌握python和AI技术。期待与更多的同行交流学习,共同进步。
展开
-
启动Hadoop HDFS时的“Incompatible clusterIDs”错误原因分析
“Incompatible clusterIDs”的错误原因是在执行“hdfs namenode -format”之前,没有清空DataNode节点的data目录。网上一些文章和帖子说是tmp目录,它本身也是没问题的,但Hadoop 2.4.0是data目录,实际上这个信息已经由日志的“/data/hadoop/hadoop-2.4.0/data”指出,所以不能死死的参照网上的解决办法,遇转载 2015-03-19 18:07:42 · 1413 阅读 · 1 评论 -
HDFS 使用Java api实现上传/下载/删除文件
package Hadoop; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; public class HDFSTes转载 2015-03-13 14:14:34 · 1467 阅读 · 0 评论 -
Hadoop 文件上传超时原因分析
当一个HDFS系统同时处理许多个并行的put操作,往HDFS上传数据时,有时候会出现dfsclient 端发生socket 链接超时的报错,有的时候甚至会由于这种原因导致最终的put操作失败,造成数据上传不完整。log类似如下:All datanodes *** are bad. Aborting...类似这样的错误,常常会在并行的put操作比较多,比如60-80个,每个pu转载 2015-03-13 15:55:03 · 1982 阅读 · 0 评论 -
[初学hadoop]错误信息:hdfs://192.168.0.16:9000/report.bak, expected: file:///
在本地运行hadoop Map/Reduce程序时,在涉及到hdfs文件操作的时候,往往会出现上面提到的错误,例如,下面这段代码:1 Path clear_path = new Path(args[1]);2 FileSystem fs = FileSystem.get(conf);3 fs.delete(clear_path); 通过试验发现,在分布式ha转载 2015-03-24 10:47:17 · 2841 阅读 · 0 评论 -
myeclipse中建web项目上传文件到hadoop,出现文件上传上去了,但是文件大小为0或小于当前文件解决方案
request.setCharacterEncoding("UTF-8");Long start = System.currentTimeMillis();try {if (ServletFileUpload.isMultipartContent(request)) {DiskFileItemFactory dff = new DiskFileItemFactory();// 创建原创 2015-03-24 14:43:59 · 2601 阅读 · 2 评论 -
HDFS文件内容追加(Append)
[python] view plaincopyHDFS设计之处并不支持给文件追加内容,这样的设计是有其背景的(如果想了解更多关于HDFS的append的曲折实现,可以参考《File Appends in HDFS》:http://blog.cloudera.com/blog/2009/07/file-appends-in-hdfs/),但从HDFS2.x开始支持给文转载 2015-04-16 14:07:16 · 2219 阅读 · 0 评论 -
浅析hadoop写入数据api
对于一般文件,都有满足随机读写的api。而hadoop中的读api很简单用FSDataInputStream类就可以满足一般要求,而hadoop中的写操作却是和普通java操作不一样。hadoop对于写操作提供了一个类:FSDataOutputStream,这个类重载了很多write方法,用于写入很多类型的数据:比如字节数组,long,int,char等等。像FSDataInput转载 2015-04-16 17:54:39 · 586 阅读 · 0 评论 -
Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?....请教了^_^没关系这里我帮大家理清每个技术的原理和思路。Pig一种操作hadoop的轻量级脚本语言,最初又雅转载 2016-09-13 21:21:42 · 505 阅读 · 0 评论 -
大数据技术Hadoop面试题,看看你能答对多少?答案在后面
1. 下面哪个程序负责 HDFS 数据存储。答案C datanodea)NameNodeb)Jobtrackerc)Datanode d)secondaryNameNodee)tasktracker2. HDfS 中的 block 默认保存几份? 答案A默认3分a)3 份b)2 份c)1 份d)不确定3. 下列哪个转载 2017-04-13 14:22:08 · 1201 阅读 · 0 评论 -
hadoop集成到myeclipse中报错/MapReducePreferencePage : Unsupported major.minor version 51.0解决方案
使用的插件为hadoop-eclipse-plugin-2.6.4.jar,放在了D:\Program Files\MyEclipse\MyEclipse 10\dropins这个目录下,结果重启myeclipse后出现org/apache/hadoop/eclipse/preferences/MapReducePreferencePage : Unsupported major.minor ve原创 2017-04-13 16:13:01 · 1584 阅读 · 1 评论 -
Win8系统的Myeclipse远程连接Hadoop配置
1. 准备好与Hadoop版本对应的eclipse插件和解压后的Hadoop;我的Hadoop版本是hadoop-0.20.2,因此我用到的myeclipse插件版本是hadoop-eclipse-plugin-0.20.203.02.将插件拷贝到..\MyEclipse Professional 2014\dropins文件夹下;3.打开myeclipse通过菜单wind转载 2017-04-13 16:27:23 · 416 阅读 · 0 评论 -
hadoop常见异常
1. org.apache.pig.backend.executionengine.ExecException: ERROR 4010: Cannot find hadoop configurations in classpath (neither hadoop-site.xml nor core-site.xml was found in the classpath).If you plan t转载 2017-04-28 18:04:19 · 1400 阅读 · 0 评论 -
Hadoop2-YARN 伪分布模式筹建
1. 系统环境 Memory: 3G CentOS6.3 x86-64 jdk-6u37-linux-x64.bin hadoop-2.0.2-alpha.tar.gz 并配置好Java环境变量。2. 配置hosts、IP及SSH认证 [kevin@linux-fdc ~]$ cat /etc/hosts 127.0.0.1 lo转载 2015-03-13 13:53:38 · 691 阅读 · 0 评论 -
通过java实现上传文件到hadoop
(1)首先创建java project选择eclipse菜单上File->New->Java Project。并命名为UploadFile。(2)添加必要的hadoop jar包右键选择JRE System Library,选择Build Path下的Configure Build Path。然后选择Add External Jars转载 2015-03-13 14:01:39 · 5867 阅读 · 0 评论 -
调用hadoop api实现文件的上传、下载、删除、创建目录和显示功能
(1)添加必要的hadoop jar包。A、首先将Hadoop1.1.2.tar.gz解压到某一个磁盘下。B、右键选择工程,选择build path...., build configure path;C、将hadoop1.1.2文件夹下的jar包添加进去;还有lib文件夹下的所有jar包(注意:jasper-compiler-5.5.12.jar和ja转载 2015-03-26 15:56:24 · 8047 阅读 · 0 评论 -
新旧 Hadoop 框架配置项变化表
表 2. 新旧 Hadoop 框架配置项变化表配置文件配置项Hadoop 0.20.X 配置Hadoop 0.23.X 配置说明core-site.xml系统默认分布式文件 URIfs.default.namefs.defaultFS hdfs-site.xmlDFS nam转载 2015-03-20 10:29:34 · 592 阅读 · 0 评论 -
hadoop2.x常用端口及定义方法
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明H转载 2015-03-20 10:43:34 · 580 阅读 · 0 评论 -
ubuntu下使用vi命令修改文件并保存实例
关于vi命令的使用,以前百度了半天也没找到详细的操作实例,都是抄来超区一些没有的东西。这里我提供一个使用vi命令修改文件并保存的详细实例教程,分享了!就以修改/opt/lampp/etc/extra/httpd-xampp.conf这个文件为例,我们找到这段代码:# since XAMPP 1.4.3phpmyadmin”>AllowOverride AuthC转载 2015-03-17 16:16:14 · 42313 阅读 · 1 评论 -
Hadoop的配置与运行(2)之SSH免密码登录
二、 配置SSH免密码登陆 在Ubuntu系统下,假设用户名为u1) 确认连接上互联网,然后输入命令#sudo apt-get install ssh 2)配置为可以免密码登陆本机。首先查看在u用户下是否存在.ssh文件夹(注意ssh前面有“.”,这是一个隐藏的文件夹),输入命令: #ls –a /home/u 一般说来,安装SSH时转载 2015-03-17 17:36:06 · 1008 阅读 · 0 评论 -
Hadoop集群配置(最全面总结)
Hadoop集群配置(最全面总结) huangguisu 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\官方地址:(http://hadoop.apache.org/common/docs/r0.19.2/c转载 2015-03-17 17:35:43 · 652 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
新旧 Hadoop MapReduce 框架比对让我们来对新旧 MapReduce 框架做详细的分析和对比,可以看到有以下几点显著变化:首先客户端不变,其调用 API 及接口大部分保持兼容,这也是为了对开发使用者透明化,使其不必对原有代码做大的改变 ( 详见 2.3 Demo 代码开发及详解),但是原框架中核心的 JobTracker 和 TaskTracker 不见了,取而代之的转载 2015-03-13 13:41:28 · 474 阅读 · 0 评论 -
Hadoop入门(10)_通过java代码实现从本地的文件上传到Hadoop的文件系统
第一步:首先搭建java的编译环境。创建一个Java Project工程,名为upload。 第二步:选中所需的Jar包。 选中JRE System Library 选择BuildPath Configure Build Path 选择hadoop相应的jar包。通过Add External JARS --〉Hadoop-0.20.2下所有转载 2015-03-13 13:41:05 · 1074 阅读 · 0 评论 -
实战windows7下eclipse远程调试linux hadoop
恩,之所以有这篇博客,是因为最近又有童鞋咨询怎么在 windows 7 下用eclipse远程调试部署在linux下的hadoop,其实我自己不这么混搭的,既然有童鞋这么问了,那我就索性随着折腾一把了。首先说明几点:远程调试对于本地hadoop版本、远程hadoop版本、eclipse版本都有极为严格的兼容性要求,我所采用的版本如下:(1)本地hadoop:0.20.203转载 2015-03-13 13:42:05 · 1087 阅读 · 0 评论 -
Hadoop 2.4.0和YARN的安装过程
Hadoop 2.x新特性 将Mapreduce框架升级到Apache YARN,YARN将Map reduce工作区分为两个:JobTracker组件:实现资源管理和任务JOB;计划/监视组件:划分到单独应用中。 使用MapReduce的2.0,开发人员现在可以直接Hadoop内部基于构建应用程序。Hadoop2.2也已经在微软widnows上支持。YARN带来了什么转载 2015-03-13 13:45:21 · 777 阅读 · 0 评论 -
Win下Eclipse提交Hadoop程序出错:org.apache.hadoop.security.AccessControlException: Permission denied: user=D
11/10/28 16:05:53 INFO mapred.JobClient: Running job: job_201110281103_000311/10/28 16:05:54 INFO mapred.JobClient: map 0% reduce 0%11/10/28 16:06:05 INFO mapred.JobClient: Task Id : attempt_20111转载 2015-03-13 13:46:20 · 583 阅读 · 0 评论 -
hadoop2.6.4和myeclipse集成执行JobClient.runJob(conf)报NullPointerException
通过百度查找,解决方案如下:1、hadoop2.2没有发布winutils.exe造成的,现编译发布出来; 把此文件放到hadoop/bin下配置环境变量HADOOP_HOME,只需要放在myeclipse中配置的本地的hadoop路径下即可;2、把hadoop.dll这个文件拷贝到C:\Windows\System32下面通过这两个步骤,再次运行程序,就不会报错了,仅供参考哈原创 2017-04-14 10:11:49 · 854 阅读 · 0 评论