jsoup 获取不到全部html_爬虫学习之Jsoup练习

Jsoup

抓取网页后,需要对网页解析,可以使用字符串处理工具解析页面,也可以使用正则表达式

jsoup 的作用:是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据

jsoup的主要功能如下:

1.从一个URL,文件或字符串中解析HTML;

2.使用DOM或CSS选择器来查找、取出数据;

3.可操作HTML元素、属性、文本;

创建练习类

ba720e7501e340429b6d8a8fbcafd7ae.png

解析URL

第一个参数是访问的url,第二个参数是访问的超时时间

2f736940b71418a332c58ca778809f8b.png

使用标签选择器,获取title标签中的内容

64322b2832e3ccf7175f31af13049583.png

输出结果

1e090e5e75a7e3b96e6d89461045ee82.png

读取文件

准备一个简易的HTML文件

2a14704e6f0235eb3636279f5ca4d1c2.png

获取这个

cc086ddaa1791bfb450dffe6a68feacf.png

读取文件,获取字符串,代码及结果

05f2d9e4bbba7ab21849b0fa466ca9a3.png

使用dom方式遍历文档

解析文件获取document对象

e99589af9a7e995344d88f5087fa713a.png

依据id获取,这个是id的内容,我们获取这个内容

9f65f25fb8a5340cbc9c09d60514cd7b.png

编写代码,显示结果

090d1153b741bcc183d86609e1cf372d.png

依据标签获取,我们获取这个标签的内容

3373e6951b4ec2c260d84a2b47ce3815.png

代码及结果

be3d6121d564755f5e891c5ca329ac6b.png

依据class获取,获取内容

c7d3bff3858fe728b1c63255686036e8.png

代码和结果

f35367773887d871e793936ae7aaa126.png

依据属性,属性内容

e715e2f9618bfab62da332bdef8cb8cf.png

代码和结果

786705d2e64936228c2f9aa5f0bb23c1.png

接下来从元素中获取数据

首先从元素中获取ID

c55702065a91e376dab5349b36e06c84.png

从元素中获取className

文本

7bb11ace9df6ec0fbcd17ff6d6ef7c84.png

代码及结果

729a37cfa111c51afc9a959363fba285.png

如果内容是两个class

de49b574c7c5cc3e93f950e6165d3fed.png

那么代码及结果

c0004d60ab8ea917d60599e7c091b07a.png

从元素中获取属性

45c8ea44e74203f954722d648d0c3104.png

代码及结果

defd58445924bac9353c1d4c9fbda657.png

获取元素的所有属性

5dad75f2d1d8106b00ca986b772b04c1.png

代码及结果

1e6742de42942fadb247429fae6d3ad6.png

从元素中获取文本内容,这个之前有,代码和结果

e0cb8f2cbeda9051ab5d39a256057d66.png
22a07e76c1a5fc01b9254e5f6f78a4e7.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值