2012年12月_零点起航

12月 09月 08月 02月

原创 Hadoop分布式编程

用Hadoop进行分布式并行编程程序实例与分析Hadoop 是一个实现了MapReduce 计算模型的开源分布式并行编程框架，借助于Hadoop, 程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的计算。在本文中，详细介绍了如何针对一个具体的并行计算任务，基于Hadoop 编写程序，如何使用 IBM MapReduce Tools 在 Eclipse 环境中

2012-12-28 17:58:08 567

原创 hadoop例句精讲

1、MapReduce理论简介 1.1 MapReduce编程模型　　MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。　　在Hadoop中，用于执行MapReduce任务的机器角色有两个：一个是JobTrac

2012-12-28 17:30:42 388

原创经常使用又经常忘记的方法

stringObject.indexOf(searchvalue,fromindex)参数描述searchvalue必需。规定需检索的字符串值。fromindex可选的整数参数。规定在字符串中开始检索的位置。它的合法取值是 0 到 stringObject.length - 1。如省略该参数，则将从字符串的首字符开始检

2012-12-28 16:20:38 331

原创常见可序列化数据结构与普通数据结构的相互转换

String转Text：String line="abcdefg";Text text=new Text(line);Text转String:(Text values)String line=values.toString;int转IntWritable:IntWritable one=new IntWritable(1);IntWritab

2012-12-28 14:13:32 1116

原创 hadoop运行常见的错误

常见错误：1. 出现类似：ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs …的异常，是因为先格式化了 namenode ，后来又修改了配置导致。将 dfs/data 文件夹内容删除，再重新格式化 namenode 即可。

2012-12-28 12:36:42 783

原创 hadoop完全分布式实践

前提：本配置共有两个测试节点，分别node1.linuxidc.com和node2.linuxidc.com，相的IP地址分别为192.168.0.78和192.168.0.79；1、准备工作为了配置一台Linux主机成为HA的节点，通常需要做出如下的准备工作：1）所有节点的主机名称和对应的IP地址解析服务可以正常工作，且每个节点的主机名称需要跟"uname -n“命令的结果保持一

2012-12-27 16:42:37 383

原创 hadoop ：java.lang.OutOfMemoryError: Java heap space

java.lang.OutOfMemoryError: Java heap spaceat org.apache.hadoop.mapred.MapTask$MapOutputBuffer.(MapTask.java:781)at org.apache.hadoop.mapred.MapTask$NewOutputCollector.(MapTask.java:524)at org.a

2012-12-27 16:36:52 1987

原创 linux彻底删除用户

linux彻底删除用户在使用linux时，经常会出现好多原先加的帐户未删除的情况，给系统运行带来隐患，因此一定要彻底删除。进入root用户，输入cd /etc在这个目录下输入cat passwd会出现很多用户，绝大部分是系统用户，是不能删的，一般最下面的是用户自己原先添加的帐户。这些帐户已经用userdel 用户名这个命令删过，但是仍存在关联文件。所以要用另

2012-12-26 11:39:33 645

原创 eclipse中运行mapreduce程序

这是Hadoop学习全程记录第2篇，在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序。新说明一下我的开发环境：操作系统：在windows下使用wubi安装了ubuntu 10.10 hadoop版本：hadoop-0.20.2.tar.gz Eclipse版本：eclipse-jee-helios-SR1-linux-gtk.tar.gz

2012-12-21 15:34:08 695

原创 hadoop完全分布式配置

安装Hadoop完全分布式模式 (2012-03-27 10:06)标签: 70 分布式 initial normal color Hadoop完全分布式模式目录 [隐藏]1 实验环境2 实验目的3 安装4 配置文件概述5 配置6 运行7 测试实验环境系统：

2012-12-21 13:08:54 454

原创 linux中给普通用户赋权限

在Linux系统中，管理员往往不止一人，若每位管理员都用root身份进行管理工作，根本无法弄清楚谁该做什么。所以最好的方式是：管理员创建一些普通用户，分配一部分系统管理工作给他们。我们不可以使用su让他们直接变成root，因为这些用户都必须知道root的密码，这种方法很不安全，而且也不符合我们的分工需求。一般的做法是利用权限的设置，依工作性质分类，让特殊身份的用户成为同一个工作组，

2012-12-20 14:23:37 11900

原创 linux中新建用户

对于一般用户来说，主目录（home directory）是硬盘上唯一可以原来写东西的地方。一般的路径名是/home/login_user_name。主目录用于存储各种用户文件：设置文件，程序配置文件，用户文档，数据 netscape 的缓存，邮件等等。作为一个普通用户，你可以在主目录下建立新的目录安排你自己的目录结构。其他用户无法阅读你的文件或者写数据到你的主目录，除非你给他们适

2012-12-20 14:18:56 721

原创通过shell命令来控制hdfs

. hadoop文件系统权限简介 hadoop文件系统实现的文件权限模型和posix模型极其类似。每个文件和目录和一个owner和group相关联。可以使用下面的命令来查看/tmp/目录下的所有文件及其权限：xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ ./bin/hadoop fs -ls /tmp/11/05/10 06:42:56 IN

2012-12-20 13:46:42 390

转载深入理解Hadoop集群和网络

摘要：本文将着重于讨论Hadoop集群的体系结构和方法，及它如何涉及到网络和服务器基础设施。开始我们先学习一下Hadoop集群运作的基础。导读：云计算和Hadoop中网络是讨论得相对比较少的领域。本文原文由Dell企业技术专家Brad Hedlund撰写，他曾在思科工作多年，专长是数据中心、云网络等。文章素材基于作者自己的研究、实验和Cloudera的培训资料。本文将着重于讨论Ha

2012-12-20 10:03:01 331

转载 java.io.IOException: Too many open files

java.io.IOException: Too many open files异常分析：打开的文件过多，一般来说是由于应用程序对资源使用不当造成，比如没有及时关闭Socket或数据库连接等。但也可能应用确实需要打开比较多的文件句柄，而系统本身的设置限制了这一数量。异常 1 java.net.SocketException: Too many open files

2012-12-13 14:40:07 637

转载如何提升Servlet和JSP应用程序的效率

你时常被客户抱怨JSP页面响应速度很慢吗?你想过当客户访问次数剧增时，你的WEB应用能承受日益增加的访问量吗?本文讲述了调整JSP和Servlet的一些非常实用的方法，它可使你的Servlet和JSP页面响应更快，扩展性更强。而且在用户数增加的情况下，系统负载会呈现出平滑上长的趋势。在本文中，我将通过一些实际例子和配置方法使得你的应用程序的性能有出人意料的提升。其中，某些调优技术是在你的编程工

2012-12-12 17:58:07 454

转载 java代码优化

1.1 不用new关键词创建类的实例用new关键词创建类的实例时，构造函数链中的所有构造函数都会被自动调用。但如果一个对象实现了Cloneable接口，我们可以调用它的clone()方法。clone()方法不会调用任何类构造函数。在使用设计模式（Design Pattern）的场合，如果用Factory模式创建对象，则改用clone()方法创建新的对象实例非常简单。例如，下面是Fa

2012-12-11 19:13:45 347