爬虫案例(程序容易被封)：爬取生态环境水污染排放标准（求大神斧正提点）

最新推荐文章于 2022-04-17 12:13:37 发布

Andy_wheat

最新推荐文章于 2022-04-17 12:13:37 发布

阅读量507

点赞数

分类专栏：案例文章标签：大数据

本文链接：https://blog.csdn.net/Andy_wheat/article/details/108282592

版权

博主分享了一个简单的爬虫程序，用于爬取生态环境水污染排放标准，但遇到结构设计不清晰、HTML链接获取效率低、PDF下载方法不明及频繁请求导致的封禁问题。寻求专家指导以改进爬虫并提高其效率。

摘要由CSDN通过智能技术生成

程序非常简陋。希望大神帮助改写成优美简介的版本。
主要问题是：
1、不太懂程序结构设计，基本上是硬试出来的。
2、HTML中完整链接获取方式不明，主要靠字符组合完成，效率太低。
3、不懂如何能把pdf文件下载下来。
4、爬的次数太多，网站会封杀。登录不了网址了。这个也不知道怎么解决。
请大神指正。多谢！
在这里插入图片描述
爬虫效果视频可以点击链接下载观看

# 这是本人模仿其他同学的爬虫写的爬取生态环境标准的程序
# 特点是没有高深的简化方法，甚至没有定义函数，适合新手练习
# 缺点就是不够简洁优美。
# 求大神改写成更为简洁优美的程序。我这个太简陋了。


import os
import time
from random import randint

import requests
from bs4 import BeautifulSoup

headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/\
537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36 Edg/84.0.522.63'
}

# 找到标准所在链接，第一页无法用for循环写。后面的可以用for循环组合。
url1 = 'http://www.mee.gov.cn/ywgz/fgbz/bz/bzwb/shjbh/swrwpfbz/index.shtml'
urls = [str('http://www.mee.gov.cn/ywgz/fgbz/bz/bzwb/\
shjbh/swrwpfbz/index_' + str(i) + '.shtml') for i in