nutch如何才能抓取到动态的url，配置文件解析

最新推荐文章于 2022-04-10 18:28:29 发布

jiutao_tang

最新推荐文章于 2022-04-10 18:28:29 发布

阅读量3.6k

点赞数

分类专栏：搜索引擎文章标签： url file 正则表达式 loops image exe

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiutao_tang/article/details/6525825

版权

Nutch默认配置可能忽略包含特殊字符如?*!@=的URL。要抓取动态URL，需修改crawl-urlfilter.txt文件中的过滤规则。例如，将-[?*!@=]改为-[~]。此外，配置还包括针对特定域名的过滤，如论坛Discuz的板块列表和帖子内容。其他配置文件如nutch-default.xml和regex-urlfilter.txt也会影响爬虫行为。

摘要由CSDN通过智能技术生成

在运行的时候不会抓取到，分析了一下原因：主要在conf/crawl-urlfilter.txt.
分析：使用nutch默认的配置过滤文件的话，是不抓取到包含?*!@=等字符的URL
解决办法：修改crawl-urlfilter的过滤规则，

# The url filter file used by the crawl command.

# Better for intranet crawling.
# Be sure to change MY.DOMAIN.NAME to your domain name.

# Each non-comment, non-blank line contains a regular expression
# prefixed by '+' or '-'. The first matching pattern in the file
# determines whether a URL is included or ignored. If no pattern
# matches, the URL is ignored.

# skip file:, ftp:, & mailto: urls
-^(file|ftp|mailto):

# skip image and other suffixes we can't yet parse
-/.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

jiutao_tang CSDN认证博客专家 CSDN认证企业博客

码龄15年

135: 原创

17万+: 周排名

191万+: 总排名

92万+: 访问

: 等级

8854: 积分

202: 粉丝

96: 获赞

62: 评论

325: 收藏

私信

关注

热门文章

分类专栏

最新评论

EnumWindow 枚举窗口
a_1979w: 说了和没说一样，回调函数有好多，这里的作用是什么不说，解释什么是回调函数……
C#打包应用程序，包括.NETFramework小结
王道之: 兄弟解决了吗
处理Selection对象和Range对象——Word VBA中重要的两个对象
mariowan: 很好，解决了我的问题，感谢！
C#打包应用程序，包括.NETFramework小结
Dalishen.z: 大佬你好，我现在用的VS2019，然后生成解决方案弄出来的可执行文件放到别人的电脑上不能运行，因为缺少.Net Framework环境。所以想问下怎么在打包可执行文件的时候，同时能把这个环境加入进去呢？以及我使用了System.Configuration这个dll怎么加入？很急！求大神回复指点！因为您的博文这个安装向导现在没有了。。。万分感谢麻烦可以的话联系 qq: 1206814310 仅咨询问题，平时不会打扰。

大家在看

重庆工商大学读《乡村振兴战略下传统村落文化旅游设计》江北南岸辉少许 893

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。