jsoup获取标签后面的数据_笔记-大数据挖掘与数据分析

最新推荐文章于 2023-09-18 14:34:51 发布

秦岭一白

最新推荐文章于 2023-09-18 14:34:51 发布

阅读量576

点赞数

文章标签： jsoup获取标签后面的数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34540432/article/details/112078259

版权

本文介绍了数据挖掘中爬虫技术的基础，包括查看网页源代码的方法，如使用开发者工具和右键菜单，以及HTML的基本结构和常见标签的使用，如标题`

`、段落`
`和链接``。通过jsoup库，可以方便地获取这些标签后面的数据。

摘要由CSDN通过智能技术生成

第1章数据挖掘之爬虫技术基础

1.1查看网页源代码

F12弹出来的东西叫做开发者工具，是进行数据挖掘的利器，对于爬虫来说，只需要会用下图的这两个按钮即可。

(1)选择按钮

点击一下它，发现它会变成蓝色，然后把鼠标在页面上移动移动，会发现页面上的颜色机会发生改变。当移动鼠标的时候，会发现界面上的颜色会发生变化，并且Elements里的内容就会随之发生变化。

(2) Elements元素按钮：

"Elements"选项卡里面的内容可以理解为就是网页的源代码，最后爬虫爬到的内容大致是这样。

另外一个获取网页源码的方式是在网页上右击选择"查看网页源代码"。

1.2网页结构初步了解

结构其实很简单，就是一个大框套着一个小框，一个小框再套着一个小小框，一般文本内容都是在最后的小框里。

前两行的

与是固定写法，作用是将代码声明为HTML文档。

如果网页出现乱码(乱码就是中文显示成奇怪的符号)，可以把charset="utf-8"中的utf-8改成gbk，这是两种不同的中文格式，各个浏览器可能各有不同。

1.3HTML基础知识

1.标题标签：

标题是通过

-

标签来定义的，一般格式为：

标题内容

。其中h1的字号最大，h6的字号最小。

2.段落

标签：

段落是通过标签

来定义的,一般格式为：

段落内容

3.链接标签：(定义链接)

链接是通过标签来定义的，一般格式为：文本内容。如果想在一个新的标签页里打开百度首页，而不是把原网页覆盖了话，只要在"链接地址"的后面加上target=_blank即可

还有些常用的标签：定义表格的label标签、定义序号的

标签、定义图片的标签、定义样式的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jsoup获取标签后面的数据_笔记-大数据挖掘与数据分析

第1章数据挖掘之爬虫技术基础1.1查看网页源代码F12弹出来的东西叫做开发者工具，是进行数据挖掘的利器，对于爬虫来说，只需要会用下图的这两个按钮即可。(1)选择按钮点击一下它，发现它会变成蓝色，然后把鼠标在页面上移动移动，会发现页面上的颜色机会发生改变。当移动鼠标的时候，会发现界面上的颜色会发生变化，并且Elements里的内容就会随之发生变化。(2) Elements元素按钮："Element...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。