Python爬虫相关自用（BS4）02

最新推荐文章于 2024-06-12 20:35:28 发布

我是Tony呀~

最新推荐文章于 2024-06-12 20:35:28 发布

阅读量673

点赞数 1

文章标签： python 爬虫

本文链接：https://blog.csdn.net/agoutou123456/article/details/122626826

版权

.text 字符串

.content 二进阶（例如图片）

.json() 返回json对象

from bs4 import BeautifulSoup
response = requests.get(url=url,headers =headers).text
soup = BeautifulSoup(response,'lxml')

把爬下来的代码放到BeautifulSoup里面，用lxml解析

一、

soup .标签名称可以返回第一个标签对应标签名称的内容 soup.a

二、

soup.find('标签名称') 返回第一个标签对应标签名称的内容 soup.find('div')

soup.find('标签名称',class_='class名称')返回对应class的div中的内容

soup.find_all('标签名称') 返回所有符合的标签以list形式

soup.find_all('标签名称',class_='class名称') 返回所有对应class的div中的内容

三、

soup.select('某种选择器') 返回html选择器中对应的内容

soup.select('层级选择') 返回是一个列表

例： soup.select('.tang > ul > li >a') 这样就会返回class为tang里面按着每一层进去找到的a标签下的内容，返回是一个列表，所以返回后再从列表取值

> 标识一个层级例如 ul > li >a 这样一层一层

空格标识多个层级例如 ul a 这样无论ul和a中间有多少都会定位到ul下的a

四、

.text 能获取标签下所有text内容

.get_text() 能获取标签下所有text内容

.string 只能获取标签下直系的内容

以上三个都可以在定位后拿到对应的text数据

例 soup.a.text

五、

['属性名'] 定位到标签内的属性内容

例 soup.a['href']

关注