heritrix爬虫的定制--筛选格式

最新推荐文章于 2024-07-23 14:56:34 发布

stilling2006

最新推荐文章于 2024-07-23 14:56:34 发布

阅读量1.5k

点赞数

分类专栏： Search Engine 文章标签： eclipse mobile class html java url

本文链接：https://blog.csdn.net/stilling2006/article/details/4611722

版权

Search Engine 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

原文作者：刘夏（博客：http://）www.beyondc.cn

可能这就是自己最近研究了heritrix这么久，可以拿得出手的一点点突破。

首先在eclipse里打开heritrix工程，在my.psotprocess包下新建一个class。命名什么都随便。代码就copy现有的FrontierSchedulerFor163Mobile就行了。会有2处错误，都是很简单的，把里面的类名和文件名统一就可以了。

找到如下代码：

Java 代码

try {
if (url.indexOf("mobile.163.com/0011/product/0011000B/product") != -1
124;124; url.indexOf("mobile.163.com/0011/product/0011000B/mark") != -1
124;124; url.endsWith(".gif")
124;124; url.endsWith(".jpg")
124;124; url.endsWith(".jpeg")
124;124; url.indexOf("robots.txt") != -1
124;124; url.indexOf("dns:") != -1) {
if (url.indexOf("#") == -1) {
getController().getFrontier().schedule(caUri);
}
} else {
return;
}
} catch (Exception e) {
e.printStackTrace();
} finally {
}
注意红

色部分代码的含义。就是在url链接中如果包含#就会返回相应的值，与-1不相等，那么就不会放入时刻表里面，那么就不会爬取。同样，如果把你所不需要的格式替换掉#，那么爬虫不会爬取此类格式了。
     例如写成：
                    if (url.indexOf("jpg") == -1) {
      getController().getFrontier().schedule(caUri);
     那么在mirror镜像里就不会出现jpg格式的文件的。
     不过注意到是，不能排除html格式，因为在job设置的时候不是选了个exctractorHTML吗？呵呵……

stilling2006

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
heritrix爬虫的定制--筛选格式

原文作者：刘夏（博客：http://）www.beyondc.cn 可能这就是自己最近研究了heritrix这么久，可以拿得出手的一点点突破。首先在eclipse里打开heritrix工程，在my.psotprocess包下新建一个class。命名什么都随便。代码就copy现有的FrontierSchedulerFor163Mobile就行了。会有2处错误，
复制链接

扫一扫

专栏目录