lz在之前的一篇博客中,用python实现了爬取百度百科的词条,就在如何用java来实现相同的功能,果不其然,java用一个jsoup的第三方库工具就可以很简单地实现爬取百度百科的词条。同样的,将这个爬取过程分成5个部分来实现。分别是connectnet连接url部分、parsehtml获取html相关内容部分、startspyder部分、store存储url部分、urlmanager的url管理部分。以下一一来讲解:
一、parsehtml部分
此部分用于对html中的标签进行分析,提取出相应的可以内容(url和文字内容)。
public class ParseHtml
{
int num = 1;
public void parse_a(Document document,List<String> urls) throws IOException
{
Elements links = document.select("div.lemma-summary"); //首先通过select来获取标签为div的内容
//Elements links = document.select("[href*=/item]");
for(Element link : links) //因为标签为div的内容有很多,所以用elements来保存
{
Elements Link = link.getElementsByTag("a"