java爬取百度百科词条

lz在之前的一篇博客中,用python实现了爬取百度百科的词条,就在如何用java来实现相同的功能,果不其然,java用一个jsoup的第三方库工具就可以很简单地实现爬取百度百科的词条。同样的,将这个爬取过程分成5个部分来实现。分别是connectnet连接url部分、parsehtml获取html相关内容部分、startspyder部分、store存储url部分、urlmanager的url管理部分。以下一一来讲解:

一、parsehtml部分

此部分用于对html中的标签进行分析,提取出相应的可以内容(url和文字内容)。

public class ParseHtml
{
    int num = 1;
    public void parse_a(Document document,List<String> urls) throws IOException
    {

        Elements links = document.select("div.lemma-summary");   //首先通过select来获取标签为div的内容

        //Elements links = document.select("[href*=/item]");
        for(Element link : links)        //因为标签为div的内容有很多,所以用elements来保存
        {
            Elements Link = link.getElementsByTag("a"
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值