关闭

nutch抓取动态网页

标签: Nutch抓取动态网页
1157人阅读 评论(0) 收藏 举报
分类:
解决搜索动态内容的问题:
需要注意在conf下面的2个文件:regex-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=] (-改+)
这段意思是跳过在连接中存在? * ! @ = 的页面,因为默认是跳过所以,在动态页中存在?一般按照默认的是不能抓取到的。可以在上面文件中修改成:
# skip URLs containing certain characters as probable queries, etc.
# -[?*!@=]
另外增加允许的一行
# accept URLs containing certain characters as probable queries, etc.
+[?=&]
意思是抓取时候允许抓取连接中带 ? = & 这三个符号的连接
0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:298048次
    • 积分:3655
    • 等级:
    • 排名:第10066名
    • 原创:94篇
    • 转载:137篇
    • 译文:2篇
    • 评论:53条
    最新评论