BeautifulSoup怎么用
1.提取数据
- 访问风变提供的URL
from bs4 import BeautifulSoup
soup = BeautifulSoup(字符串,'html.parser')
第0个参数:必须是字符串类型
第1个参数:是解析器
虽然response.text和soup打印出的内容表面上看长得一模一样,却有着不同的内心,它们属于不同的类:<class ‘str’> 与<class ‘bs4.BeautifulSoup’>。前者是字符串,后者是已经被解析过的BeautifulSoup对象。之所以打印出来的是一样的文本,是因为BeautifulSoup对象在直接打印它的时候会调用该对象内的__str__方法,所以直接打印 bs 对象显示字符串是__str__的返回结果。
2.解析数据
1.find(标签,属性):提取出的是tag对象
2.find_all(标签,属性):提取出list列表
kind = item.find('h2') # 在列表中的每个元素里,匹配标签<h2>提取出数据
title = item.find(class_='title') # 在列表中的每个元素里,匹配属性class_='title'提取出数据
brief = item.find(class_='info') # 在列表中的每个元素里,匹配属性class_='info'提取出数据
3.tag的三种用法
1.Tag.text:提出Tag对象中的文字
2.Tag[‘属性名’]:提出对应属性下的数据,如Tag[‘href’]提取出URL
3.Tag.find()和Tag.find_all():提出tag下的tag