java爬虫 之 搜狐新闻爬虫(二)

本文介绍如何使用Java实现搜狐新闻的爬虫,通过分析网页结构找到新闻标题、时间及来源的HTML标签,成功抓取并展示了一条具体新闻的内容。建议在实际操作中多尝试不同页面以验证抓取准确性。
摘要由CSDN通过智能技术生成

我们可以发现搜狐新闻的新闻页都是有规律的比如:
http://news.sohu.com/20160415/n444266195.shtml

在浏览器中右键检查元素

这里写图片描述

可以找到锁定文章标题,时间,来源的标签

那么经过分析确定标签可以得到下面的代码:

Elements h = doc.select("h1[itemprop]");//标题

    System.out.println(h.text());

    Elements time = doc.select("div.time");//时间

    System.out.println(time.text());
    /*
    Element source = doc.select("span[itemprop=name]").first();//来源

    System.out.println(source.text());
    */
    //maybe 更好
    Elements source = doc.select("div[class=source]");

    System.out.println(source.text());

    Elements body = doc.select("div[itemprop=articleBody]");

    System.out.println(body.text());

运行一下得到结果:

英媒:美防长将于15日登上航母穿越南海争议水域
2016-04-15 11:46:17
来源:环球网
  【环球网报道 记者 韩梅】据英国路透社4月15日报道,美国国防部长卡特将于周五登上美国航母,穿过南海争议水域。报道称,去年11月,卡特也有过类似举动。在此次美菲举行的联合军演中,卡特将登上的“斯坦尼斯号”航母也参与其中。   此前据美联社报道,卡特14日在马尼拉拜会菲律宾总统阿基诺三世,并与菲律宾国防部长加斯明举行双边会议。卡特在会后的记者会上说:“上个月我们在南海展开了联合海事巡逻。”他还表示,在15日的年度肩并肩演习结束后,将派275名美军人员暂时留在菲律宾。此外,5架A-10C雷霆攻击机,以及4架其他型号的战机也将继续留在菲律宾,直到4月底才会撤离。

每个网站的结构不一样,建议多试一个网页,以确保,抓取的标签没错。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值