python爬取建标库规范信息并保存到本地

1. 引言

作为一只土木狗,从进入大学的那一天起就开始和各种各样的规范打交道,不管是混凝土、钢结构、砌体结构规范,还是抗震、基础、荷载、高层规范,可以这么说,整个大学基本就是在学各个规范的原理性知识。工作以后,但凡是从事规划、设计、施工等工作更是离不开这些规范。今天给大家带来一个案例,用python爬取建标库网站的规范信息,并保存到本地,下面跟随我一起来实践吧。

2. 分析页面

进入建标库网站,我们找到“国家规范>建筑专业”版块,url链接(http://www.jianbiaoku.com/webarbs/list/117/1.shtml),打开页面,如图所示,可以看到,一共有42页内容,每页的规范数量大概有30个。
在这里插入图片描述
我们点击到第2页,可以看到网址变成了http://www.jianbiaoku.com/webarbs/list/117/2.shtml,如图所示。
在这里插入图片描述
因此只需要改变http://www.jianbiaoku.com/webarbs/list/117/{}.shtml中的{}部分,就可以遍历爬取所有42页的内容。
我们按F12解析一下网页元素,可以看到,规范信息都储存在div class=“book_list_data” > div class="book_item"标签下,因此用xpath或者bs4可以快速定位,本次采用xpath方式爬取,下面开始正式代码。
在这里插入图片描述

3.代码实现

1、首先导入可能要用到的模块,并用列表推导式构造url列表,设置headers请求头 。

import requests
import time
from lxml import etree

#构造url列表
urls = ['http://www.jianbiaoku.com/webarbs/list/117/{}.shtml'.format(page) for page in range(1, 43)]

#设置headers请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}

2、遍历url列表,循环获取页面响应内容,利用xpath定位获取每页的所有规范的<div>标签,然后再遍历获取每个<div>标签下的规范名称(bz_name)、规范编号(bz_id)、更新时间(bz_time),并保存到“国家规范-建筑专业.csv”文件下,设置异常处理,提高代码的容错性。

for index, url in enumerate(urls):
    #设置休眠时间,防止被识别为爬虫
    time.sleep(1)
    response = requests.get(url=url, headers=headers)
    response.encoding = 'utf-8'
    content = response.text
    
    #利用xpath定位获取每页的所有规范的<div>标签
    html = etree.HTML(content)
    items = html.xpath('//div[@class="book_list_data"]/div[@class="book_item"]')
    print('开始爬取第{}页'.format(index+1))
    
    #遍历获取每个<div>标签下的规范名称(bz_name)、规范编号(bz_id)、更新时间(bz_time)
    for item in items:
        #设置异常处理,提高代码的容错性
        try:
            bz_name = item.xpath('./span[@class="book_name"]/a/text()')[0]
            bz_id = item.xpath('./span[@class="book_version"]/text()')[0]
            bz_time = item.xpath('./span[@class="book_date"]/text()')[0]
            #将获取的内容保存到“国家规范-建筑专业.csv”文件下
            with open('国家规范-建筑专业.csv', 'a', encoding='utf-8') as f:
                f.write(bz_name+','+bz_id+','+bz_time+'\n')
            print(bz_name, bz_id, bz_time)
        except IndexError:
            print('数据异常')
            pass
        continue

3、运行程序,执行结果如图所示。
在这里插入图片描述
4、用excel打开csv文件,如图所示,大功告成!
在这里插入图片描述
小伙伴,你学会了吗?扫描下方二维码关注公众号,在后台回复“爬取规范”即可获取源代码。
在这里插入图片描述

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
如果你要的是免费的音乐资源,可以使用Python来实现。一般情况下,音乐资源的流程如下: 1. 分析音乐资源的网站结构,找到音乐资源的URL。 2. 使用Python的requests向服务器发送请求,获音乐资源的HTML数据。 3. 使用正则表达式或BeautifulSoup等工具,解析音乐资源的HTML数据,提音乐资源的下载链接。 4. 使用Python的requests再次向服务器发送请求,下载音乐资源并保存到本地。 以下是一个简单的示例代码,以并下载某个网站上的免费音乐为例: ```python import requests import re # 1. 分析音乐资源的网站结构,找到音乐资源的URL url = 'http://example.com/music' # 2. 使用Python的requests向服务器发送请求,获音乐资源的HTML数据 response = requests.get(url) # 3. 使用正则表达式或BeautifulSoup等工具,解析音乐资源的HTML数据,提音乐资源的下载链接 download_links = re.findall(r'<a href="(.*\.mp3)">', response.text) # 4. 使用Python的requests再次向服务器发送请求,下载音乐资源并保存到本地 for link in download_links: filename = link.split('/')[-1] with open(filename, 'wb') as file: file.write(requests.get(link).content) ``` 需要注意的是,如果要的音乐资源需要付费或需要登录才能下载,就需要使用相应的技术手段进行处理。同时,音乐资源也需要遵守相关法律法规和道德规范,不得侵犯他人的合法权益。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值