python爬取建标库规范信息并保存到本地

最新推荐文章于 2023-09-06 01:20:18 发布

Seasons in the snow

最新推荐文章于 2023-09-06 01:20:18 发布

阅读量5.3k

点赞数 2

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/m0_37940048/article/details/115764782

版权

爬虫专栏收录该内容

5 篇文章

订阅专栏

1. 引言

作为一只土木狗，从进入大学的那一天起就开始和各种各样的规范打交道，不管是混凝土、钢结构、砌体结构规范，还是抗震、基础、荷载、高层规范，可以这么说，整个大学基本就是在学各个规范的原理性知识。工作以后，但凡是从事规划、设计、施工等工作更是离不开这些规范。今天给大家带来一个案例，用python爬取建标库网站的规范信息，并保存到本地，下面跟随我一起来实践吧。

2. 分析页面

进入建标库网站，我们找到“国家规范>建筑专业”版块，url链接（http://www.jianbiaoku.com/webarbs/list/117/1.shtml），打开页面，如图所示，可以看到，一共有42页内容，每页的规范数量大概有30个。
在这里插入图片描述
我们点击到第2页，可以看到网址变成了http://www.jianbiaoku.com/webarbs/list/117/2.shtml，如图所示。

因此只需要改变http://www.jianbiaoku.com/webarbs/list/117/{}.shtml中的{}部分，就可以遍历爬取所有42页的内容。
我们按F12解析一下网页元素，可以看到，规范信息都储存在div class=“book_list_data” > div class="book_item"标签下，因此用xpath或者bs4可以快速定位，本次采用xpath方式爬取，下面开始正式代码。
在这里插入图片描述

3.代码实现

1、首先导入可能要用到的模块，并用列表推导式构造url列表，设置headers请求头。

import requests
import time
from lxml import etree

#构造url列表
urls = ['http://www.jianbiaoku.com/webarbs/list/117/{}.shtml'.format(page) for page in range(1, 43)]

#设置headers请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}

2、遍历url列表，循环获取页面响应内容，利用xpath定位获取每页的所有规范的<div>标签，然后再遍历获取每个<div>标签下的规范名称（bz_name）、规范编号（bz_id）、更新时间（bz_time），并保存到“国家规范-建筑专业.csv”文件下，设置异常处理，提高代码的容错性。

for index, url in enumerate(urls):
    #设置休眠时间，防止被识别为爬虫
    time.sleep(1)
    response = requests.get(url=url, headers=headers)
    response.encoding = 'utf-8'
    content = response.text
    
    #利用xpath定位获取每页的所有规范的<div>标签
    html = etree.HTML(content)
    items = html.xpath('//div[@class="book_list_data"]/div[@class="book_item"]')
    print('开始爬取第{}页'.format(index+1))
    
    #遍历获取每个<div>标签下的规范名称（bz_name）、规范编号（bz_id）、更新时间（bz_time）
    for item in items:
        #设置异常处理，提高代码的容错性
        try:
            bz_name = item.xpath('./span[@class="book_name"]/a/text()')[0]
            bz_id = item.xpath('./span[@class="book_version"]/text()')[0]
            bz_time = item.xpath('./span[@class="book_date"]/text()')[0]
            #将获取的内容保存到“国家规范-建筑专业.csv”文件下
            with open('国家规范-建筑专业.csv', 'a', encoding='utf-8') as f:
                f.write(bz_name+','+bz_id+','+bz_time+'\n')
            print(bz_name, bz_id, bz_time)
        except IndexError:
            print('数据异常')
            pass
        continue

3、运行程序，执行结果如图所示。
在这里插入图片描述
4、用excel打开csv文件，如图所示，大功告成！

小伙伴，你学会了吗？扫描下方二维码关注公众号，在后台回复“爬取规范”即可获取源代码。