爬虫案例(程序容易被封):爬取生态环境水污染排放标准(求大神斧正提点)

博主分享了一个简单的爬虫程序,用于爬取生态环境水污染排放标准,但遇到结构设计不清晰、HTML链接获取效率低、PDF下载方法不明及频繁请求导致的封禁问题。寻求专家指导以改进爬虫并提高其效率。
摘要由CSDN通过智能技术生成

程序非常简陋。希望大神帮助改写成优美简介的版本。
主要问题是:
1、不太懂程序结构设计,基本上是硬试出来的。
2、HTML中完整链接获取方式不明,主要靠字符组合完成,效率太低。
3、不懂如何能把pdf文件下载下来。
4、爬的次数太多,网站会封杀。登录不了网址了。这个也不知道怎么解决。
请大神指正。多谢!
在这里插入图片描述
爬虫效果视频可以点击链接下载观看

# 这是本人模仿其他同学的爬虫写的爬取生态环境标准的程序
# 特点是没有高深的简化方法,甚至没有定义函数,适合新手练习
# 缺点就是不够简洁优美。
# 求大神改写成更为简洁优美的程序。我这个太简陋了。


import os
import time
from random import randint

import requests
from bs4 import BeautifulSoup

headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/\
537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36 Edg/84.0.522.63'
}

# 找到标准所在链接,第一页无法用for循环写。后面的可以用for循环组合。
url1 = 'http://www.mee.gov.cn/ywgz/fgbz/bz/bzwb/shjbh/swrwpfbz/index.shtml'
urls = [str('http://www.mee.gov.cn/ywgz/fgbz/bz/bzwb/\
shjbh/swrwpfbz/index_' + str(i) + '.shtml') for i in 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值