一.导包
from bs4 import BeautifulSoup
二.建立BeautifulSoup的HTML内容
main_page = BeautifulSoup(content, "html.parser")
由于没有安装lxml包,可以直接引入html.parser来完成
1.拿标签
(1): 语法find(“标签名”, attrs={属性键:属性值}), 获取一个
a_list = main_page.find("ul", attrs={"class": "pic-list2"})
(2): 语法find_all(“标签名”, attrs={属性键:属性值}), 获取所有同类型, 返回的是一个列表
a_list = main_page.find("ul", attrs={"class": "pic-list2"}).find_all("a")
注意:因为find_all返回值是列表,后面不能接find(), 如果想要接find(),可以遍历这个列表,
或者find_all[0].find()。
2.拿标签属性或内容
(1): 拿属性 .get("属性名")
for a in a_list:
href = a.get("href")
(2): 拿文字内容 .text
for a in a_list:
em = a.find("em").text
(3).判断地址尾部字符:.endswith()
if href.endswith(".exe"):
continue
3.关于爬虫中的域名解析
列如:通过bs4, 获取href为 "bizhi/10070_120505_2.html", url = "https://baidu.com.cn/
可以直接拼接 a = href+url; 可是假如href为 "/caji/16870_165125_2.html",就不能直接拼接,因为href头部和url尾部的 “/”拼接会多余一条,所以就要判断“/”条数会变的麻烦。这时候可以直接应用urllib.parse中的urljoin库,就可以完成域名拼接。
from urllib.parse import urljoin
a = urljoin(url, href) # 以后所有的路径拼接都用 .urljoin
三.直接适配CSS的解析方式(基于CSS的选择器)
1. select("结构选择"), 等价于find_all()
a_list = main_page.select(".photo-list-padding > a")
2. select_one("结构选择"), 等价于find()
src = chld_page.select_one("#bigImg").get("src")
select相较于find更受开发者明青睐