Jsoup
抓取网页后,需要对网页解析,可以使用字符串处理工具解析页面,也可以使用正则表达式
jsoup 的作用:是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据
jsoup的主要功能如下:
1.从一个URL,文件或字符串中解析HTML;
2.使用DOM或CSS选择器来查找、取出数据;
3.可操作HTML元素、属性、文本;
创建练习类
解析URL
第一个参数是访问的url,第二个参数是访问的超时时间
使用标签选择器,获取title标签中的内容
输出结果
读取文件
准备一个简易的HTML文件
获取这个
读取文件,获取字符串,代码及结果
使用dom方式遍历文档
解析文件获取document对象
依据id获取,这个是id的内容,我们获取这个内容
编写代码,显示结果
依据标签获取,我们获取这个标签的内容
代码及结果
依据class获取,获取内容
代码和结果
依据属性,属性内容
代码和结果
接下来从元素中获取数据
首先从元素中获取ID
从元素中获取className
文本
代码及结果
如果内容是两个class
那么代码及结果
从元素中获取属性
代码及结果
获取元素的所有属性
代码及结果
从元素中获取文本内容,这个之前有,代码和结果