爬虫目标
指定日期,爬取人民日报所有版面的新闻
简要分析版面链接分析
发现一共有20个版面,分别有 20 个链接,只是每个链接后的数字不同
http://paper.people.com.cn/rmrb/html/2020-03/12/nbs.D110000renmrb_01.htm
爬虫结构用到模块:requests、BeautifulSoup、gevent
构造参数类
需要下载其他日期,自行修改就好
class TOOL():
# 年月 yyyy-mm 格式
date = "2020-03"
# 日期
day = "12"
# 新闻详情页
text_url = "http://paper.people.com.cn/rmrb/html/{}/{}/".format(date,day)
# 版面 URL 列表
@classmethod
def get_urls(cls):
urls = list() # 链接列表
for num in range(1,20):
# 10 以下数字补 0
if 1 <= num < 10 :
num = "0" + str(num)
urls.append("http://paper.people.com.cn/rmrb/html/{}/{}/nbs.D110000renmrb_{}.htm".format(cls.date,cls.day,nu