关于BeautifulSoup解析

一.导包

from bs4 import BeautifulSoup

二.建立BeautifulSoup的HTML内容

main_page = BeautifulSoup(content, "html.parser")

        由于没有安装lxml包,可以直接引入html.parser来完成

1.拿标签

        (1): 语法find(“标签名”, attrs={属性键:属性值}),  获取一个

a_list = main_page.find("ul", attrs={"class": "pic-list2"})

        (2): 语法find_all(“标签名”, attrs={属性键:属性值}), 获取所有同类型, 返回的是一个列表

a_list = main_page.find("ul", attrs={"class": "pic-list2"}).find_all("a")

        注意:因为find_all返回值是列表,后面不能接find(), 如果想要接find(),可以遍历这个列表,
或者find_all[0].find()。

2.拿标签属性或内容

        (1): 拿属性 .get("属性名")

for a in a_list:
    href = a.get("href")

        (2): 拿文字内容 .text

for a in a_list:
    em = a.find("em").text
        (3).判断地址尾部字符:.endswith()
if href.endswith(".exe"):
    continue

        

 3.关于爬虫中的域名解析

        列如:通过bs4, 获取href为 "bizhi/10070_120505_2.html", url = "https://baidu.com.cn/

可以直接拼接 a = href+url; 可是假如href为 "/caji/16870_165125_2.html",就不能直接拼接,因为href头部和url尾部的 “/”拼接会多余一条,所以就要判断“/”条数会变的麻烦。这时候可以直接应用urllib.parse中的urljoin库,就可以完成域名拼接。

from urllib.parse import urljoin
a = urljoin(url, href)   # 以后所有的路径拼接都用 .urljoin

三.直接适配CSS的解析方式(基于CSS的选择器)

1. select("结构选择"), 等价于find_all()

a_list = main_page.select(".photo-list-padding > a")

2. select_one("结构选择"), 等价于find()

src = chld_page.select_one("#bigImg").get("src")

select相较于find更受开发者明青睐

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值