BeautifulSoup4 解析列表出现丢失（已解决）

最新推荐文章于 2024-04-08 07:18:09 发布

Ginta_x

最新推荐文章于 2024-04-08 07:18:09 发布

阅读量1.7k

点赞数 2

本文链接：https://blog.csdn.net/qq_35068933/article/details/89223403

版权

引言

我在爬取建筑部企业项目信息的时候出现了数据丢失：以下 施工图审查 中一共有3组数据，当我遍历内容的时候发现数据停留在第一条的a标签就没有继续遍历了。

image.png

后来查看F12

image.png

这个数据的中间有时候会出现空格，或者换行，导致后面的td标签无法识别。原因在于选择的解析器没有把文档格式化，换成lxml就可以了。

from bs4 import BeautifulSoup
import lxml
soup = BeautifulSoup(html_doc, 'lxml')  # 这里是出现问题的地方，原来我的解析器是'html.parser'
    """施工图审查"""
    tab_sgtsc_list = soup.find('div', id='tab_sgtsc').find('table').find('tbody').find_all('tr')
    try:
        for tab_sgtsc in tab_sgtsc_list:
            print('序号', tab_sgtsc.find_all('td')[0].text.strip())
            print('施工图审查合格书编号', tab_sgtsc.find_all('td')[1].text.strip())

            print('省级施工图审查合格书编号', tab_sgtsc.find_all('td')[2].text.strip())
            try:
                print('勘察单位名称', tab_sgtsc.find_all('td')[3].find('a').text.strip())
            except AttributeError:
                print('勘察单位名称', tab_sgtsc.find_all('td')[3].text.strip())
            try:
                print('设计单位名称', tab_sgtsc.find_all('td')[4].find('a').text.strip())
            except AttributeError:
                print('设计单位名称', tab_sgtsc.find_all('td')[4].text.strip())
            print('施工图审查机构名称', tab_sgtsc.find_all('td')[5].text.strip())
    except IndexError:
        print('没有施工图审查信息')

    print("*" * 50)

Ginta_x

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BeautifulSoup4 解析列表出现丢失（已解决）

引言我在爬取建筑部企业项目信息的时候出现了数据丢失：以下施工图审查中一共有3组数据，当我遍历内容的时候发现数据停留在第一条的a标签就没有继续遍历了。image.png后来查看F12image.png这个数据的中间有时候会出现空格，或者换行，导致后面的td标签无法识别。原因在于选择的解析器没有把文档格式化，换成lxml就可以了。from bs4 im...
复制链接

扫一扫