2011年12月_豹先生_MR-BAO

12月 11月 10月 09月 08月 07月

原创修复hbase region hole(region空洞，两个region rowkey不连续)问题流程

修复hbase region hole问题流程1，查询资料用hbase org.jruby.Main check_meta.rb --fix和 hbase hbck -fix会造成数据丢失，考虑其他办法，首先考虑用major_compact对该表进行更新看是否会检测到问题并修复，major_compact完成之后未成功 2，重新起动hbase集群，是否会进行闭环检测？未成

2011-12-19 18:51:05 8391 1

转载在Eclipse中运行第一个MapReduce程序

这是Hadoop学习全程记录第2篇，在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序。新说明一下我的开发环境：操作系统：在windows下使用wubi安装了ubuntu 10.10 hadoop版本：hadoop-0.20.2.tar.gz Eclipse版本：eclipse-jee-helios-SR1-linux-gtk.tar.gz

2011-12-12 19:33:54 1928

在HDFS上面最不明确的事情之一就是数据的冗余。它完全是自动进行的，因为无法得知其中详细的信息，我们需要做的就是相信它。HBase完全相信HDFS存储数据的安全性和完整性，并将数据文件交给HDFS存储。正是因为HDFS的数据冗余方式对于HBase来说是完全透明的，产生了一个问题：HBase的效率会受到多大的影响？说的简单一点，当HBase需要存取数据时，如何保证有一份冗余的数据块离自己最近？当我们

2011-12-07 11:38:23 2695

转载让cygwin使用英文shell界面

搜索结果里充斥着大量让cygwin显示中文的文章以及各种版本转载，我不知道转载这些文章的同学到底自己亲自试验过没有，显示出来的中文往往只显示一半，这样也能算能显示中文了？这么多坑爹的结果，却没有一个告诉大家怎么使用英文界面的方法？目前的cygwin的shell界面往往是由windows的localization设定决定的，所以如果你将local设定为中国，那么界面默认都是已经能显示中文的了。但

2011-12-05 18:19:21 2599

转载 nutch的核心流程分析

Crawl类的时序图。流程如下:1. 建立初始URL 集2. 将URL 集注入crawldb 数据库---inject3. 根据crawldb 数据库创建抓取列表---generate4. 执行抓取，获取网页信息---fetch5. 更新数据库，把获取到的页面信息存入数据库中---updatedb 6. 重复进行3 ～5 的步骤，直到预先设定的

2011-12-02 16:16:08 767

转载 Nutch 1.3 源码分析 8 LinkDb

1. 运行命令 bin/nutch invertlinks帮助参数说明：view plainUsage: LinkDb linkdb> (-dir segmentsDir> | seg1> seg2> ...) [-force] [-noNormalize] [-noFilter] linkdb output LinkDb to crea

2011-12-01 18:39:37 1094

转载 Nutch 1.3 源码分析 7 CrawlDb - updatedb

这里主要看一下CrawlDb中的updatedb，它主要是用来更新CrawlDb数据库的1. bin/nutch updatedb我们用nutch的命令行时会看到一个方法叫updatedb，其实这个方法就是调用CrawlDb.java类中的update方法，它的参数帮助如下：view plainUsage: CrawlDb crawldb

2011-12-01 18:36:37 1274

转载 Nutch 1.3 源码分析 ParseSegment

1. bin/nutch parse这个命令主要是用来解析抓取的内容，对其进行外链接分析，计算分数等操作，这个解析在抓取的时候就可以设置是否进行，如果在抓取的时候没有设置解析抓取的网页内容，那这边可以单独用一个Map-Reduce任务来做。后面的参数为：Usage: ParseSegment segment这里是一个segment的目录名2. ParseSegment源

2011-12-01 18:30:07 1405

转载 Nutch 1.3 源码分析 5 Fetcher流程

1. Fetcher模块的简单介绍Fetcher这个模块在Nutch中有单独一个包在实现，在org.apache.nutch.fetcher，其中有Fetcher.java, FetcherOutput 和FetcherOutputFormat来组成，看上去很简单，但其中使用到了多线程，多线程的生产者与消费者模型，MapReduce的多路径输出等方法。下面我们来看一下Fetcher的注

2011-12-01 18:21:35 1313

转载 Nutch 1.3 源码分析 4 Generate 类

1. Generate的作用在Inject之后就是Generate，这个方法主要是从CrawlDb中产生一个Fetch可以抓取的url集合(fetchlist)，再结合一定的过滤条件，它的命令行如下： view plainbin/nutch generate Usage: Generator crawldb> segments_di

2011-12-01 17:57:32 1543 2

nutch1.3在myclipse部署工程源码

nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码

2011-10-31

osgi开发jar包

osgi开发jar包osgi开发jar包osgi开发jar包osgi开发jar包

2009-02-20

mysql官方中文参考.chm

mysql官方中文参考mysql官方中文参考

2009-01-07

jfreechart-1.0.9-javadocs

2008-09-23

iReport+Flash教程(LWY)报表

2008-09-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人