@R星校长
第1
关:获取新闻url
任务描述
本关任务:编写一个爬虫,并使用正则表达式获取求是周刊2019
年第一期的所有文章的url
。详情请查看《求是》2019年第1期 。
相关知识
获取每个新闻的url
有以下几个步骤:
- 首先获取
2019
年第1
期页面的源码,需要解决部分反爬机制; - 找到目标
url
所在位置,观察其特征; - 编写正则表达式,获取目标数据。
编程要求
使用正则表达式获取求是周刊2019
年第一期的所有文章的url
,返回的是一个包含所有url
的列表。
预期输出:
http://www.qstheory.cn/dukan/qs/2019-01/01/c_1123924154.htm
http://www.qstheory.cn/dukan/qs/2018-12/31/c_1123923896.htm
http://www.qstheory.cn/dukan/qs/2019-01/01/c_1123923886.htm
http://www.qstheory.cn/dukan/qs/2019-01/01/c_1123923852.htm
http://www.qstheory.cn/dukan/qs/2019-01/01/c_1123923828.htm
http://www.qstheory.cn/dukan/qs/2019-01/01/c_1123923817.htm
http://www.qstheory.cn/dukan/qs/2019-01/01/c_1123923778.htm
http://www.qstheory.cn