程序非常简陋。希望大神帮助改写成优美简介的版本。
主要问题是:
1、不太懂程序结构设计,基本上是硬试出来的。
2、HTML中完整链接获取方式不明,主要靠字符组合完成,效率太低。
3、不懂如何能把pdf文件下载下来。
4、爬的次数太多,网站会封杀。登录不了网址了。这个也不知道怎么解决。
请大神指正。多谢!
爬虫效果视频可以点击链接下载观看
# 这是本人模仿其他同学的爬虫写的爬取生态环境标准的程序
# 特点是没有高深的简化方法,甚至没有定义函数,适合新手练习
# 缺点就是不够简洁优美。
# 求大神改写成更为简洁优美的程序。我这个太简陋了。
import os
import time
from random import randint
import requests
from bs4 import BeautifulSoup
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/\
537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36 Edg/84.0.522.63'
}
# 找到标准所在链接,第一页无法用for循环写。后面的可以用for循环组合。
url1 = 'http://www.mee.gov.cn/ywgz/fgbz/bz/bzwb/shjbh/swrwpfbz/index.shtml'
urls = [str('http://www.mee.gov.cn/ywgz/fgbz/bz/bzwb/\
shjbh/swrwpfbz/index_' + str(i) + '.shtml') for i in