爬取人民日报_【爬虫系列】人民日报半个世纪的资料(文末福利)

在资料库中人民日报从1957年-2002年近半个世纪的报纸资料:

http://www.ziliaoku.org/rmrb/

如此好的资料,就应该自己收藏到本地,因为说不定哪一天,网上的资料就被删除了。

所以:写个爬虫爬下来

b2950b1426e3d94ec6f88eec9c43209f.png

其实,request,urllib等的包也可以爬取,但是在处理中文字符上有很大问题,而robobowser可以解决此问题。

另外,在re.DOTALL用来设定dot能够表示包含换行符在内的所有字符。

不过反思以上代码,作为面向对象的编程语言,在上述代码中不仅没出现class,连def也没有出现,确实是python入门水平。

但不管怎样,我们得到了我们想要的东西,像这样:

b062a3c584907bad4242ad5da727afd2.png

这半个世纪,大概有1111869篇新闻报道。当然,有了下载数据,如果有兴趣也可以做一个文本分析。

福利:经过几经周转,终于把所有文档下载并压缩了下来,文件已经按时间重命名:

文件大小:1.44GB

链接:https://pan.baidu.com/s/1hsgsDJe

密码:joe9

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值