用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)

本文介绍如何利用JAVA爬虫框架WebCollector构建一个爬虫,专注于从知乎网站中抓取并提取问题标题和内容。教程详细讲解了设置种子、正则和线程数,并展示了如何使用BreadthCrawler遍历算法,通过JSOUP解析DOM树来获取问题信息。
摘要由CSDN通过智能技术生成

简介:

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。

如何将WebCollector导入项目请看下面这个教程:

JAVA网络爬虫WebCollector深度解析——爬虫内核


参数:

WebCollector无需繁琐配置,只要在代码中给出下面几个必要参数,即可启动爬虫:

1.种子(必要):

种子即爬虫的起始页面。一个爬虫可添加一个或多个种子。

2.正则(可选):

正则是约束爬取范围的一些正则式。正则不一定要给出。如果用户没有给出正则,系统会自动将爬取范围限定在种子的域名内。

3.线程数(可选):

WebCollector是一个多线程的爬虫,默认使用10个线程同时工作。开发者可以自定义线程数。


需求:

简述一下教程里代码的功能:定制一个爬虫,对“知乎”网站进行爬取,不要求下载所有的网页和文件,而是要求对知乎中所有的“提问”页面中的”问题“进行提取。如图:

我们需要提取问题标题:“看了《蝙蝠侠》,如果我闯进纽交所,逼迫所有人卖掉他手里的所有的股票期货债券什么的,会有什么毁灭性后果?",

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值