jsoup网页内容抓取分析

最新推荐文章于 2020-04-29 20:17:04 发布

Spring_LGF

最新推荐文章于 2020-04-29 20:17:04 发布

阅读量871

点赞数

分类专栏： jsoup 文章标签： jsoup

jsoup 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

针对上一篇写的内容很简单，只是给大家抛出了有一个工具可以用来分析网页的内容，做java搜索爬虫使用，实际的使用并没有怎么介绍，现在这篇文章就来介绍一下用法，可能分析的不是很全面，欢迎批评。经过我的测试使用，jsoup分析网页结构和内容的功能远远强大于HtmlParser,无论是获取整个页面的文本，还是分析特定内容的网页结构，都是十分的方便。

　　附上链接：jsoup官网：http://jsoup.org/ ，中文jsoup：http://www.open-open.com/jsoup/

　　下面写些我的使用记录，希望大家如果能从我的方法中得到启发，鉴于本人从事开发工作不久，内容可能写的不是很好。

　　jsoup数据获取有两大方法：1.通过分析dom模型的网页标签和元素，2.select元素选择器，类似jquery方式(功能很强大，还支持正则表达式)。网页tag标签有body，div，table，tr，td，a，等等。元素的属性有，href，title，width，height，color等等，元素属性的值就是，例如：href=“www.baidu.com”, 值就是www.baidu.com 。width=“98%” 值就是98%

　　下面就以分析http://www.iteye.com首页的每日资讯为例，抓取每日资讯的标题和url地址，详细写出分析步骤：

　　1.用chrome浏览器的元素审查，分析页面的结构，得到每日资讯是div class=<main_left>层里面

　　2.写程序分析，首先根据url获取div文本，再来根据文本对内容进行分析

　　Java代码

　　/**

　　* 根据jsoup方法获取htmlContent

　　* 加入简单的时间记录

　　* @throws IOException

　　*/

　　public static String getContentByJsoup(String url){

　　String content="";

　　try {

　　System.out.println("time=====start");

　　Date startdate=new Date();

　　Document doc=Jsoup.connect(url)

　　.data("jquery", "java")

　　.userAgent("Mozilla")

　　.cookie("auth", "token")

　　.timeout(50000)

　　.get();

　　Date enddate=new Date();

　　Long time=enddate.getTime()-startdate.getTime();

　　System.out.println("使用Jsoup耗时=="+time);

　　System.out.println("time=====end");

　　content=doc.toString();//获取iteye网站的源码html内容

　　System.out.println(doc.title());//获取iteye网站的标题

　　} catch (IOException e) {

　　e.printStackTrace();

　　}

　　System.out.println(content);

　　return content;

　　}

　　3. 根据整个每日资讯所在的div层，获取那段内容(精确获取)

　　Java代码

　　/**

　　* 使用jsoup来对文档分析

　　* 获取目标内容所在的目标层

　　* 这个目标层可以是div，table，tr等等

　　*/

　　public static String getDivContentByJsoup(String content){

　　String divContent="";

　　Document doc=Jsoup.parse(content);

　　Elements divs=doc.getElementsByClass("main_left");

　　divContent=divs.toString();

　　//System.out.println("div==="+divContent);

　　return divContent;

　　}

　　

　　4.根据获取的目标层得到你所要的内容(title，url地址...等等)

　　Java代码

　　/**

　　* 使用jsoup分析divContent

　　* 1.获取链接 2.获取url地址(绝对路径)

　　*/

　　public static void getLinksByJsoup(String divContent){

　　String abs="http://www.iteye.com/";

　　Document doc=Jsoup.parse(divContent,abs);

　　Elements linkStrs=doc.getElementsByTag("li");

　　System.out.println("链接==="+linkStrs.size());

　　for(Element linkStr:linkStrs){

　　String url=linkStr.getElementsByTag("a").attr("abs:href");

　　String title=linkStr.getElementsByTag("a").text();

　　System.out.println("标题:"+title+" url:"+url);

　　}

　　}

　　

　　5.加入main方法里面执行测试

　　Java代码

　　/**

　　* @method 测试获取内容程序

　　*/

　　public static void main(String[] args) throws IOException {

　　/**

　　* 执行分析程序

　　*/

　　String url="http://www.iteye.com/";

　　String HtmlContent=getContentByJsoup(url);

　　String divContent=getDivContentByJsoup(HtmlContent);

　　getLinksByJsoup(divContent);

　　}

　　6.附上结束语：jsoup功能很好很强大，附上的只是简单的使用方法，还有很多需要完善的内容，我其实使用也不到几天的时间。还有就是select功能还是很好用的，具体参考官方文档，写的非常的通俗易懂!附上程序源码和jsoup的jar包

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jsoup网页内容抓取分析

针对上一篇写的内容很简单，只是给大家抛出了有一个工具可以用来分析网页的内容，做java搜索爬虫使用，实际的使用并没有怎么介绍，现在这篇文章就来介绍一下用法，可能分析的不是很全面，欢迎批评。经过我的测试使用，jsoup分析网页结构和内容的功能远远强大于HtmlParser,无论是获取整个页面的文本，还是分析特定内容的网页结构，都是十分的方便。　　附上链接：jsoup官网：http://j
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。