.text 字符串
.content 二进阶(例如图片)
.json() 返回json对象
from bs4 import BeautifulSoup response = requests.get(url=url,headers =headers).text soup = BeautifulSoup(response,'lxml')
把爬下来的代码放到BeautifulSoup里面,用lxml解析
一、
soup .标签名称 可以返回第一个标签对应标签名称的内容 soup.a
二、
soup.find('标签名称') 返回第一个标签对应标签名称的内容 soup.find('div')
soup.find('标签名称',class_='class名称')返回对应class的div中的内容
soup.find_all('标签名称') 返回所有符合的标签 以list形式
soup.find_all('标签名称',class_='class名称') 返回所有对应class的div中的内容
三、
soup.select('某种选择器') 返回html选择器中对应的内容
soup.select('层级选择') 返回是一个列表
例: soup.select('.tang > ul > li >a') 这样就会返回class为tang里面按着每一层进去找到的a标签下的内容,返回是一个列表,所以返回后再从列表取值
> 标识一个层级 例如 ul > li >a 这样一层一层
空格标识多个层级 例如 ul a 这样无论ul和a中间有多少都会定位到ul下的a
四、
.text 能获取标签下所有text内容
.get_text() 能获取标签下所有text内容
.string 只能获取标签下直系的内容
以上三个都可以在定位后拿到对应的text数据
例 soup.a.text
五、
['属性名'] 定位到标签内的属性内容
例 soup.a['href']