![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 51
caoruntaogmail
这个作者很懒,什么都没留下…
展开
-
使用eclipse插件进行mapreduce程序开发和运行
一、环境说明linux:redhat enterprise linux 5hadoop:0.20.2eclipse:3.4.2jdk:1.6.21ant:1.8.2 二、安装hadoop伪分布式 三、安装eclipse把eclipse-SDK-3.4.2-linux-gtk.tar.gz解压到/home/hadoop/eclipse3.4.2 四、安...原创 2011-05-10 12:50:33 · 251 阅读 · 0 评论 -
https和ssl
HTTPS(全称:Hypertext Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。 它是一个URI scheme(抽象标识符体系),句法类同http:体系。用于安全的HTTP数据传输。https:URL表明它使用...原创 2011-03-30 16:00:24 · 135 阅读 · 0 评论 -
wget和curl
wget是一个从网络上自动下载文件的自由工具,支持通过HTTP、HTTPS、FTP三个最常见的TCP/IP协议下载,并可以使用HTTP代理。 curl是一个利用URL语法在命令行方式下工作的文件传输工具。它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP。 ...原创 2011-03-30 16:14:34 · 55 阅读 · 0 评论 -
LDAP
LDAP简介 简单说来,LDAP是一个得到关于人或者资源的集中、静态数据的快速方式。 LDAP是一个用来发布目录信息到许多不同资源的协议。通常它都作为一个集中的地址本使用,不过根据组织者的需要,它可以做得更加强大。 LDAP最新的rfc规范文档时RFC 4511 Lightweight Directory Access Protocol (LDAP): The Proto...原创 2011-03-30 16:15:21 · 74 阅读 · 0 评论 -
AOP
面向切面编程(也叫面向方面):Aspect Oriented Programming AOP是OOP的延续,是(Aspect Oriented Programming)的缩写,意思是面向切面(方面)编程。 主要的功能是:日志记录,性能统计,安全控制,事务处理,异常处理等等。 主要的意图是:将日志记录,性能统计,安全控制,事务处理,异常处理等代码从业务逻辑代码中划分出来,通过...原创 2011-03-30 19:07:17 · 96 阅读 · 0 评论 -
AspectJ
AspectJ是一个面向切面的框架,它扩展了Java语言。AspectJ定义了AOP语法所以它有一个专门的编译器用来生成遵守Java字节编码规范的Class文件.原创 2011-03-30 19:08:24 · 219 阅读 · 0 评论 -
JMX
Java管理扩展(也叫做JMX规范)在Java编程语言中定义了应用程序以及网络管理和监控的体系结构、设计模式、应用程序接口以及服务。通常使用JMX来监控系统的运行状态或管理系统的某些方面,比如清空缓存、重新加载配置文件等 JMX--Java Management Extensions,即Java管理扩展,是一个为应用程序、设备、系统等植入管理功能的框架。JMX可以跨越一系列异构操作系统平台...原创 2011-03-30 22:13:54 · 65 阅读 · 0 评论 -
KB,MB,GB,TB,PB,EB,ZB,YB
KB ,2 的 10 次方 : 1024 BYTE.MB ,2 的 20 次方 : 1048576 BYTE, 或 1024 KB.GB ,2 的 30 次方 : 1073741824 BYTE, 或 1024 MB.TB ,2 的 40 次方 : 1099511627776 BYTE, 或 1024 GB.PB ,2 的 50 次方 : 1125899906842624 BYTE,...原创 2011-03-31 09:29:06 · 178 阅读 · 0 评论 -
xen
Xen 是一个开放源代码虚拟机监视器,由剑桥大学开发。它打算在单个计算机上运行多达128个有完全功能的操作系统。操作系统必须进行显式地修改(“移植”)以在Xen上运行(但是提供对用户应用的兼容性)。这使得Xen无需特殊硬件支持,就能达到高性能的虚拟化。...原创 2011-04-07 15:35:02 · 76 阅读 · 0 评论 -
在Hadoop平台上运行程序时,导入第三方类库的方法
【转】http://yixiaohuamax.iteye.com/blog/850410 在将编写的MapReduce程序提交到Hadoop集群中运行时,往往需要导入第三方类库,否则很容易报出:Error: java.lang.ClassNotFoundException:异常,首先说一下以下四种解决方法: (1) 将第三方jar包放在集群中每个节点$HADOOP_HOME/lib...原创 2011-04-10 14:01:07 · 130 阅读 · 0 评论 -
运行Hadoop权威指南中的例子:3.5.1:URLCat
1、编写代码:package crt.hadoop.test;import java.io.IOException;import java.io.InputStream;import java.net.MalformedURLException;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHa...原创 2011-04-10 15:50:02 · 165 阅读 · 0 评论 -
运行Hadoop权威指南中的例子:3.5.2:FileSystemCat
1、编写代码:package crt.hadoop.test;import java.io.InputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoo...原创 2011-04-10 16:35:00 · 385 阅读 · 0 评论 -
sftp
sftp是Secure File Transfer Protocol的缩写,安全文件传送协议。可以为传输文件提供一种安全的加密方法。sftp 与 ftp 有着几乎一样的语法和功能。sFTP 为 SSH的一部份,是一种传输档案至 Blogger 伺服器的安全方式。其实在SSH软件包中,已经包含了一个叫作SFTP(Secure File Transfer Protocol的安全文件传输子系统,SFTP...原创 2011-03-30 15:50:58 · 63 阅读 · 0 评论 -
SASL
SASL全称Simple Authentication and Security Layer,是一种用来扩充C/S模式验证能力的机制。原创 2011-03-29 17:19:44 · 166 阅读 · 0 评论 -
Ganglia
Ganglia Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。 每台计算机都运行一个收集和发...原创 2011-03-29 17:18:26 · 73 阅读 · 0 评论 -
tsvncache.exe占用资源导致机子变慢解决
具体操作步骤如下:a) 右击任意目录打开右键菜单,打开"tortoisesvn" => "settings"下的设置窗口b) 找到"icon overlays"的设置项,将"status cache"设置成"none"2.使用SVN的“check for modifications”显示差异具体操作步骤如下:a) 右击需要比较差异的目录,打开右键菜单,打开"tortoisesvn&qu原创 2010-11-04 10:57:34 · 170 阅读 · 0 评论 -
Nagle's Algorithm
Nagle算法是以他的发明人John Nagle的名字命名的,它用于自动连接许多的小缓冲器消息;这一过程(称为nagling)通过减少必须发送包的个数来增加网络软件系统的效率。Nagle算法于1984年定义为福特航空和通信公司IP/TCP拥塞控制方法,这是福特经营的最早的专用TCP/IP 网络减少拥塞控制,从那以后这一方法得到了广泛应用。Nagle的文档里定义了处理他所谓的小包问题的方法,这种问题...原创 2011-06-07 14:51:37 · 254 阅读 · 0 评论 -
FQDN
全域名(FQDN,Fully Qualified Domain Name)是指主机名加上全路径,全路径中列出了序列中所有域成员。全域名可以从逻辑上准确地表示出主机在什么地方,也可以说全域名是主机名的一种完全表示形式。从全域名中包含的信息可以看出主机在域名树中的位置。例如,acmecompany公司的Web服务器的全域名可以是www. acmecompany. com,而若WWW主机是在销售部子域,...原创 2011-06-07 15:28:15 · 368 阅读 · 0 评论 -
数据完整性和数据一致性
数据完整性是指存储在数据库中的所有数据值均正确的状态。如果数据库中存储有不正确的数据值,则该数据库称为已丧失数据完整性。 数据一致性是指关联数据之间的逻辑关系是否正确和完整。问题可以理解为应用程序自己认为的数据状态与最终写入到磁盘中的数据状态是否一致。比如一个事务操作,实际发出了五个写操作,当系统把前面三个写操作的数据成功写入磁盘以后,系统突然故障,导致后面两个写操作没有写入磁...原创 2011-03-11 16:40:49 · 4316 阅读 · 0 评论 -
VInt
转载:http://blog.csdn.net/a276202460/archive/2010/06/01/5640983.aspxlucene的索引文件信息主要包括 段(segment),文档(document),域(field),项(term)说到lucene的索引存储的存储结构,堪称精妙。lucene给出的存储的数据类型有以下几种•Primitive Types •Byte •U...原创 2011-03-12 16:49:10 · 123 阅读 · 0 评论 -
安装hadoop集群和运行wordcount
说明:hadoop版本:0.21.0一个namenode和两个datanode 参考:http://www.360doc.com/content/10/0727/10/2159920_41738746.shtmlhttp://yymmiinngg.iteye.com/blog/706699http://wenku.baidu.com/view/b3a1f5d2240c8...原创 2011-03-21 14:11:25 · 86 阅读 · 0 评论 -
HADOOP报错Incompatible namespaceIDs
转:http://blog.csdn.net/wh62592855/archive/2010/07/21/5752199.aspx 今早一来,突然发现使用-put命令往HDFS里传数据传不上去了,抱一大堆错误,然后我使用bin/hadoop dfsadmin -report查看系统状态admin@adw1:/home/admin/joe.wangh/hadoop-0.19.2>b...原创 2011-03-22 10:36:05 · 52 阅读 · 0 评论 -
hadoop.common:InterfaceAudience
转:http://shuofenglxy.iteye.com/blog/935597InterfaceAudience 类包含三个注解类型,用来被说明被他们注解的类型的潜在的使用范围(audience)。 @InterfaceAudience.Public: 对所有工程和应用可用 @InterfaceAudience.LimitedPrivate: 仅限于某...原创 2011-03-26 15:20:28 · 97 阅读 · 0 评论 -
Avro
Avro是一个数据序列化的系统,它可以提供: 1 丰富的数据结构类型 2 快速可压缩的二进制数据形式 3 存储持久数据的文件容器 4 远程过程调用RPC 5 简单的动态语言结合功能,Avro和动态语言结合后,读写数据文件和使用RPC协议都不需要生成代码,而代码生成作为一种可选的优化只值得在静态类型语言中实现。 Avro依赖于模式(Schema)。Av...原创 2011-03-28 17:07:21 · 88 阅读 · 0 评论 -
谷歌技术“三宝”之一的Google文件系统和Kosmos 文件系统
转:http://www.cppblog.com/jack-wang/archive/2010/02/26/108503.aspx谷歌技术“三宝”之一的Google文件系统和Kosmos 文件系统 虽然针对大规模分布式存储系统,Google将推陈出新,推新的理由有很多,如"single-master design,…… but it was certainly unacceptable ...原创 2011-03-28 17:09:54 · 143 阅读 · 0 评论 -
Bloom Filter
转:http://blog.csdn.net/jiaomeng/archive/2007/01/27/1495500.aspx Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(fa...原创 2011-03-28 19:23:03 · 54 阅读 · 0 评论 -
运行Hadoop权威指南中的例子:3.5.3:FileCopyWithProgress
1、编写代码:package crt.hadoop.test;import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.InputStream;import java.io.OutputStream;import java.net.URI;import org...原创 2011-04-10 17:46:23 · 184 阅读 · 0 评论