BeautifulSoup不是Python库,需要单独安装-
pip install BeautifulSoup4 #Mac是pip3
一、解析数据
-
bs对象:bs对象=BeautifulSoup(要解析的文本,'解析器'),
其中,要解析的文本必须是字符串!后面的参数用来标识解析器,现在用的是一个Python内置库:html.parser。(它不是唯一的解析器,但是比较简单的)
import requests
from bs4 import BeautifulSoup
res=requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
html=res.text
#这里html是str类型
soup=BeautifulSoup(html,'html.parser')
#将html(str类型)转换成soup(被解析过的BeautifulSoup对象)。html和soup打印出来的是一样的文本,是因为BeautifulSoup对象在直接打印它的时候会调用该对象内的str方法,所以直接打印 bs 对象显示字符串是str的返回结果。
#但将str转换成BeautifulSoup对象才能调用相关的属性的方法
print(soup)
print(type(soup))
二、提取数据
提取数据的两大知识点:find()和find_all(),Tag对象。
1)find()和find_all()
是BeautifulSoup对象的两个方法,可以匹配html的标签和属性
find()与find_all()的用法 | |||
方法 | 作用 | 用法 | 结果类型 |
fin |