![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Heritrix
文章平均质量分 51
wbia2010lkl
这个作者很懒,什么都没留下…
展开
-
Eclipse中导入Heritrix,报错找不到类 sun.net.www.protocol.file.FileURLConnection
<br />在Heritrix1.14.3配置运行时,出现Error:找不到sun.net.www.protocol.file.FileURLConnection,网上找了一下原因是sun包是受保护的包,默认只有sun公司的软件才能使用,Eclipse使用则会报错,只需把对保护使用waring就可以了<br />具体的做法是:<br />Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstric原创 2010-09-30 14:58:00 · 7688 阅读 · 1 评论 -
(转)Heritrix1.14.1在Eclipse下的配置总结
<br /><br /> 1、在Eclipse下新建一个项目。(哪一个版本应该无所谓吧,JDK1.5); <br /> 2、将1.14.1版的Heritrix两个.zip文件下载并解压到临时目录(heritrix-1.14.1-src.zip和heritrix-1.14.1.zip); <br /> 3、从第一个zip文件解压目录下/src/java复制三个文件夹(包):org、com、st到项目中的src上; <br /> 4、从第一个zip文件解压目录下/src/conf复制所有转载 2010-09-30 14:24:00 · 650 阅读 · 0 评论 -
Heritrix在开发环境myEclipse下的配置方法
<br /> 配置的时候,先从网上搜的配置方法,但不知道怎么回事,老是配置不成功,就是输入http://127.0.0.1:8090(我设置的端口是8090)时,打不开。我看网上配置的方法都是大同小异的,但不知道怎么到我这就不成功了,很苦恼。后来不知怎么的,就认认真真的按部就班的按一篇文章上写的配置,配置成功了。<br />下面是我配置成功参考的步骤:<br /> <br />主要步骤如下:<br />1. 下载heritrix-1.14.4.zip和heritrix-1.14.4-src.zip,分别解压原创 2010-10-15 20:01:00 · 1598 阅读 · 0 评论 -
Bloom Filter
<br />在javaEyes上找到一篇挺有用的文章,希望能对大家理解Bloom filter有帮助 <br /><br />1 Overview<br /> Bloom filter最早由 Burton Howard Bloom提出,是一种用于判断成员是否存在于某个集合中的数据结构。 Bloom filter的判断基于概率论:如果某个成员存在于集合中,那么Bloom filter不会返回假(即不存在),也就是说false negative是不可能的。如果某个成员实际上不存在于集合中,Bloom fi原创 2010-10-20 11:16:00 · 1759 阅读 · 0 评论 -
作业第二步—#2找出Politeness
<br /> <br /> 在eclipse中利用全局搜索,搜索politeness,就找到了他的藏身之地Frontier--》AbstractFrontier<br />中的politenessDelayFor函数,<br /> /**<br /> * Update any scheduling structures with the new information in this<br /> * CrawlURI. Chiefly means make necessary arran原创 2010-10-21 22:01:00 · 587 阅读 · 0 评论 -
作业第二步——#3找出isUrlVisited
这是Frontier的类图,从中可以看到有几个关键类:5。BdbUriUniqFilter:它用来检查一个要进入等待队列的链接是否已经被抓取过.其中有个关键函数setAdd,就是此次要找的isUrlVisited的核心//添加URL protected boolean setAdd(CharSequence uri) { DatabaseEntry key = new DatabaseEntry(); LongBinding.longToEntry(createKey(u原创 2010-10-21 22:12:00 · 744 阅读 · 0 评论 -
作业第二步——#1代码分析
<br />首先看一下Heritrix的架构图:<br /> <br /><br /> <br /> <br /> 1。<br /> CrawlController(下载控制器)整个下载过程的总的控制者,整个抓取工作的起点,决定整个抓取任务的开始和结束。从Frontier获取 URI,传递给线程池(ToePool)中的ToeThread处理。<br />2。 Frointier(边界控制器) 主要确定下一个将被处理的URI,负责访问的均衡处理,避免对某一web服务器造成太大的压力。它保存着craw原创 2010-10-21 21:19:00 · 780 阅读 · 0 评论 -
作业第三步----Top10的最重要页面
到了这一步,这次的作业基本计算完成了。通过得到url的出入度信息,排出Top10的最重要页面。 在抓取过程中,我们创建了自己Extractor,然后又在BdbFrontier中修改了代码实现了出入度的文件保存,于是接下来只需对文件进行分析利用pageRank算法即可。 思路一: 这是最常规的方法,也是第一时间可以相处的方法,就是利用出度关系,直接构造一个邻接矩阵,读取矩阵之后进行 nG= 0.85*LT+0.15/11(1N)nP0=(1/11,1/11,….)Tn原创 2010-10-25 01:45:00 · 909 阅读 · 1 评论 -
作业第三步----Top10的最重要页面(续)
<br />由于此前在Heritrix中自定义的Extractor保存了如下几个文件:<br /> <br />1.入度;格式为url+“/n”+入度数<br /> <br />例如:http://hmwu.ccer.edu.cn/<br /> <br /> 1<br /> <br />2.出度,格式同上<br /> <br />3.url及其链出的url<br /> <br />例如:http://www.ccer.pku.edu.cn/cn/Images/arrow.gif<br />原创 2010-10-27 23:23:00 · 852 阅读 · 0 评论