2013年10月_ATCO

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 zookeeper信息查看工具

公司很多产品会使用zookeeper,比如Meta消息中间件,在测试的过程中,我们经常需要查询zookeeper里面的信息来精确定位问题。目前项目中有开发团队自己写的浏览器node-zk-browser，是基于node.js的express.js框架和node-zookeeper客户端实现的,具体可参考https://github.com/killme2008/node-zk-browser.

2013-10-30 15:18:22 13220 1

转载 Nutch 1.3 学习笔记 8 LinkDb

这里主要是分析一下org.apache.nutch.crawl.LinkDb,它主要是用计算反向链接。1. 运行命令 bin/nutch invertlinks帮助参数说明：[html] view plaincopyUsage: LinkDb linkdb> (-dir segmentsDir> | seg1> seg2> .

2013-10-21 14:27:07 831

转载 Nutch 1.3 学习笔记 7 CrawlDb - updatedb

这里主要看一下CrawlDb中的updatedb，它主要是用来更新CrawlDb数据库的1. bin/nutch updatedb我们用nutch的命令行时会看到一个方法叫updatedb，其实这个方法就是调用CrawlDb.java类中的update方法，它的参数帮助如下：[html] view plaincopyUsa

2013-10-21 14:26:39 890

转载 Nutch 1.3 学习笔记 6 ParseSegment

1. bin/nutch parse这个命令主要是用来解析抓取的内容，对其进行外链接分析，计算分数等操作，这个解析在抓取的时候就可以设置是否进行，如果在抓取的时候没有设置解析抓取的网页内容，那这边可以单独用一个Map-Reduce任务来做。后面的参数为：Usage: ParseSegment segment这里是一个segment的目录名2. ParseSegmen

2013-10-21 14:26:09 881

转载 Nutch 1.3 学习笔记 5-1 FetchThread

上一节看了Fetcher中主要几个类的实现，这一节会来分析一下其中用到的消费者FetcherThread,来看看它是干嘛的。1. Fetcher的Mapp模型Fetcher.java代码中可以看到，Fetcher继承自MapRunable,它是Mapper的抽象接口，实现这个接口的子类能够更好的对Map的流程进行控制，包括多线程与异步Maper。1.1 Fe

2013-10-21 14:25:26 712

转载 Nutch 1.3 学习笔记 5 Fetcher

1. Fetcher模块的简单介绍Fetcher这个模块在Nutch中有单独一个包在实现，在org.apache.nutch.fetcher，其中有Fetcher.java, FetcherOutput 和FetcherOutputFormat来组成，看上去很简单，但其中使用到了多线程，多线程的生产者与消费者模型，MapReduce的多路径输出等方法。下面我们来看一下Fetcher的注

2013-10-21 14:24:59 729

转载 Nutch 1.3 学习笔记 4-1 SegmentReader分析

前面我们看了一下Generate的流程，它是为Fetch产生相应的fetchlist，这里想介绍一下Segment的查看工具SegmentReader类。1. 命令介绍[html] view plaincopybin/nutch readseg Usage: SegmentReader (-dump ... | -l

2013-10-21 14:24:30 724

转载 Nutch 1.3 学习笔记 4 Generate

1. Generate的作用在Inject之后就是Generate，这个方法主要是从CrawlDb中产生一个Fetch可以抓取的url集合(fetchlist)，再结合一定的过滤条件，它的命令行如下： [html] view plaincopybin/nutch generate Usage: Generator cra

2013-10-21 14:23:58 892

转载 nutch 1.3 学习笔记3-1 Inject CrawlDB Reader

上次我们分析了Inject的整个流程，其中说到了Inject的输出格式是MapSequenceFileOutputFormat，这个格式可以使用一个叫CrawlDbReader的工具来读取和分析。下面我们就来分析一下这个工具有哪些用。1. CrawlDbReader工具的使用方法在命令行中运行bin/nutch readdb后就可以看到其帮助，实际上这个shell方法调用的正

2013-10-21 14:23:21 716

转载 Nutch 1.3 学习笔记 - Inject

1. Inject是干嘛的？在Nutch中Inject是用来把文本格式的url列表注入到抓取数据库中，一般是用来引导系统的初始化。这里的文本格式如下：[html] view plaincopyhttp://www.nutch.org/ \t nutch.score=10 \t nutch.fetchInterval=2592000 \t us

2013-10-21 14:22:33 1244

转载 Nutch 学习笔记 2

1. Nutch 1.3 运行命令的一些介绍要看Nutch的命令说明，可执行如下命令bin/nutch [html] view plaincopy Usage: nutch [-core] COMMAND where COMMAND is one of: crawl one-step

2013-10-21 14:21:54 716

转载 Nutch 1.3 学习笔记1

1. Nutch是什么?Nutch是一个开源的网页抓取工具，主要用于收集网页数据，然后对其进行分析，建立索引，以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储，索引使用了Solr分布式索引框架来做，Solr是一个开源的全文索引框架，从Nutch 1.3开始，其集成了这个索引架构2. 在哪里要可以下载到最新的Nutch?在下面地址

2013-10-21 14:21:03 787

转载 IIS6.0中布署MVC站点

网站是vs2008 + MVC２开发的，需要布署到windows 2003 server + IIS6.0的环境中。服务器环境要求：Windows 2003 server + IIS6.01.安装.net framework 4.0, MVC(MVC 的版本要注意与你项目的版本一致，否则需要进行转换和拷贝一些相关的动态库) IIS站点配置1

2013-10-18 14:08:39 1090

net.sf.fjep.fatjar_0.0.31插件

使用net.sf.fjep.fatjar_0.0.31可以在ECLIPSE中很方便的将第三方JAR包打进自已的JAR包中，以免总是找不到相关的类或需要设置大量环境变量，具体请查看博文：http://blog.csdn.net/atco/article/details/7626131

2012-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人