爬取人民日报_【爬虫项目】人民日报

爬虫目标

指定日期,爬取人民日报所有版面的新闻

简要分析版面链接分析

发现一共有20个版面,分别有 20 个链接,只是每个链接后的数字不同

http://paper.people.com.cn/rmrb/html/2020-03/12/nbs.D110000renmrb_01.htm

爬虫结构用到模块:requests、BeautifulSoup、gevent

构造参数类

需要下载其他日期,自行修改就好

class TOOL():

# 年月 yyyy-mm 格式

date = "2020-03"

# 日期

day = "12"

# 新闻详情页

text_url = "http://paper.people.com.cn/rmrb/html/{}/{}/".format(date,day)

# 版面 URL 列表

@classmethod

def get_urls(cls):

urls = list() # 链接列表

for num in range(1,20):

# 10 以下数字补 0

if 1 <= num < 10 :

num = "0" + str(num)

urls.append("http://paper.people.com.cn/rmrb/html/{}/{}/nbs.D110000renmrb_{}.htm".format(cls.date,cls.day,nu

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值