自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

豹先生

思而后定,持之以恒

  • 博客(10)
  • 资源 (5)
  • 收藏
  • 关注

原创 修复hbase region hole(region空洞,两个region rowkey不连续)问题流程

修复hbase region hole问题流程1,查询资料用hbase org.jruby.Main check_meta.rb --fix和 hbase hbck -fix会造成数据丢失,考虑其他办法,   首先考虑用major_compact对该表进行更新看是否会检测到问题并修复,major_compact完成之后未成功   2,重新起动hbase集群,是否会进行闭环检测?未成

2011-12-19 18:51:05 8391 1

转载 在Eclipse中运行第一个MapReduce程序

这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序。 新说明一下我的开发环境: 操作系统:在windows下使用wubi安装了ubuntu 10.10 hadoop版本:hadoop-0.20.2.tar.gz Eclipse版本:eclipse-jee-helios-SR1-linux-gtk.tar.gz

2011-12-12 19:33:54 1928

转载 HBase 数据文件在HDFS上的存储

在HDFS上面最不明确的事情之一就是数据的冗余。它完全是自动进行的,因为无法得知其中详细的信息,我们需要做的就是相信它。HBase完全相信HDFS存储数据的安全性和完整性,并将数据文件交给HDFS存储。正是因为HDFS的数据冗余方式对于HBase来说是完全透明的,产生了一个问题:HBase的效率会受到多大的影响?说的简单一点,当HBase需要存取数据时,如何保证有一份冗余的数据块离自己最近?当我们

2011-12-07 11:38:23 2695

转载 让cygwin使用英文shell界面

搜索结果里充斥着大量让cygwin显示中文的文章以及各种版本转载,我不知道转载这些文章的同学到底自己亲自试验过没有,显示出来的中文往往只显示一半,这样也能算能显示中文了?这么多坑爹的结果,却没有一个告诉大家怎么使用英文界面的方法?目前的cygwin的shell界面往往是由windows的localization设定决定的,所以如果你将local设定为中国,那么界面默认都是已经能显示中文的了。但

2011-12-05 18:19:21 2599

转载 nutch的核心流程分析

Crawl类的时序图。    流程如下:1. 建立初始URL 集2. 将URL 集注入crawldb 数据库---inject3. 根据crawldb 数据库创建抓取列表---generate4. 执行抓取,获取网页信息---fetch5. 更新数据库,把获取到的页面信息存入数据库中---updatedb      6. 重复进行3 ~5 的步骤,直到预先设定的

2011-12-02 16:16:08 767

转载 Nutch 1.3 源码分析 8 LinkDb

1. 运行命令 bin/nutch invertlinks帮助参数说明:view plainUsage: LinkDb linkdb> (-dir segmentsDir> | seg1> seg2> ...) [-force] [-noNormalize] [-noFilter]      linkdb  output LinkDb to crea

2011-12-01 18:39:37 1094

转载 Nutch 1.3 源码分析 7 CrawlDb - updatedb

这里主要看一下CrawlDb中的updatedb,它主要是用来更新CrawlDb数据库的1. bin/nutch updatedb我们用nutch的命令行时会看到一个方法叫updatedb,其实这个方法就是调用CrawlDb.java类中的update方法,它的参数帮助如下:view plainUsage: CrawlDb crawldb

2011-12-01 18:36:37 1274

转载 Nutch 1.3 源码分析 ParseSegment

1. bin/nutch parse这个命令主要是用来解析抓取的内容,对其进行外链接分析,计算分数等操作,这个解析在抓取的时候就可以设置是否进行,如果在抓取的时候没有设置解析抓取的网页内容,那这边可以单独用一个Map-Reduce任务来做。后面的参数为:Usage: ParseSegment segment这里是一个segment的目录名2. ParseSegment源

2011-12-01 18:30:07 1405

转载 Nutch 1.3 源码分析 5 Fetcher流程

1. Fetcher模块的简单介绍Fetcher这个模块在Nutch中有单独一个包在实现,在org.apache.nutch.fetcher,其中有Fetcher.java, FetcherOutput 和FetcherOutputFormat来组成,看上去很简单,但其中使用到了多线程,多线程的生产者与消费者模型,MapReduce的多路径输出等方法。下面我们来看一下Fetcher的注

2011-12-01 18:21:35 1313

转载 Nutch 1.3 源码分析 4 Generate 类

1. Generate的作用   在Inject之后就是Generate,这个方法主要是从CrawlDb中产生一个Fetch可以抓取的url集合(fetchlist),再结合一定的过滤条件,它的命令行如下:   view plainbin/nutch generate     Usage: Generator crawldb> segments_di

2011-12-01 17:57:32 1543 2

nutch1.3在myclipse部署工程源码

nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码

2011-10-31

osgi开发jar包

osgi开发jar包osgi开发jar包osgi开发jar包osgi开发jar包

2009-02-20

mysql官方中文参考.chm

mysql官方中文参考mysql官方中文参考

2009-01-07

jfreechart-1.0.9-javadocs

jfreechart-1.0.9-javadocs

2008-09-23

iReport+Flash教程(LWY)报表

iReport+Flash教程(LWY)报表

2008-09-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除