1、BeautifulSoup4基础介绍
- 使用pip安装BeautifulSoup4
pip install BeautifulSoup4
- 导入BeautifulSoup4模块
import bs4
- 创建BeautifulSoup.bs4对象
# 引入urllib.request模块
import urllib.request
# html.read()为urllib.request.urlopen()方法得到的字节对象,也可采用其他方法
html = urllib.request.urlopen("http://pythonscraping.com/pages/page1.html")
# 解析器采用python标准库:"html.parser",也可以采用其他库(需安装)
soup=bs4.BeautifulSoup(html.read(),"html.parser")
- 查找bs4对象
# 方法一:直接在bs4对象后跟对应的标签名,可以多级,结果相同
print(soup.h1)
print(soup.html.h1)
print(soup.html.body.h1)
# 方法二:使用find方法查找,返回类型为bs4.element.Tag
name=soup.find("span",{
"class":"red"})
pri