【Python】BeautifulSoup解析HTML时，字符串文本成空白的行怎么办？

翠花上酸菜

已于 2024-09-13 08:52:45 修改

阅读量157

点赞数 4

分类专栏：网络爬虫 python 文章标签： python 开发语言

于 2024-09-12 15:24:28 首次发布

本文链接：https://blog.csdn.net/Meggie35/article/details/142099837

版权

python 同时被 2 个专栏收录

45 篇文章 0 订阅

订阅专栏

网络爬虫

5 篇文章 0 订阅

订阅专栏

我们在用爬虫解析html源码的时候，如果遇到有空白内容的节点，正常需要的部分呢，又找不到节点，如下图所示：

在这里插入图片描述
放大图是这样的：

在这里插入图片描述
如果我想获取上面的文字段落，就无法直接通过定位节点的方式获取text。

解决办法：

可以直接获取上一级可以获取的节点，例如上面的例子是获取到'id': 'zb_price_cont' 这个节点，然后把该节点下的所有文本用strings获取下来，然后用list进行分段。

（如果不用list装起来，所有文本会成段，不好分割文本）

import requests
from bs4 import BeautifulSoup

url="WWW.xxx.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
response = requests.get(url, headers=headers)#一定要有headers
page_soup= BeautifulSoup(response.text, 'lxml')

# 用一个list(节点.strings) 就可以直接获取得到
words=list(page_soup.find('div', {'id': 'zb_price_cont'}).strings)
print(words)