爬虫实战——求是网周刊文章爬取（一）and 爬虫基本原理

最新推荐文章于 2024-08-15 17:38:46 发布

Rich Dad

最新推荐文章于 2024-08-15 17:38:46 发布

阅读量4.6k

点赞数 6

文章标签： python 正则表达式爬虫爬虫基本原理爬虫实战

I love 段奥娟

本文链接：https://blog.csdn.net/qq_44745905/article/details/110346777

版权

本文介绍了爬虫的基本原理和简单爬虫架构，包括URL管理器、网页下载器和网页解析器的设计思路。通过Python实现，利用正则表达式抓取求是网2019年第1期的所有文章链接。

摘要由CSDN通过智能技术生成

时间煮雨
@R星校长

第1关：获取新闻url

任务描述

本关任务：编写一个爬虫，并使用正则表达式获取求是周刊2019年第一期的所有文章的url。详情请查看《求是》2019年第1期。

相关知识

获取每个新闻的url有以下几个步骤：

首先获取2019年第1期页面的源码，需要解决部分反爬机制；
找到目标url所在位置，观察其特征；
编写正则表达式，获取目标数据。

编程要求

使用正则表达式获取求是周刊2019年第一期的所有文章的url，返回的是一个包含所有url的列表。

预期输出：

http://www.qstheory.cn/dukan/qs/2019-01/01/c_1123924154.htm
http://www.qstheory.cn/dukan/qs/2018-12/31/c_1123923896.htm
http://www.qstheory.cn/dukan/qs/2019-01/01/c_1123923886.htm
http://www.qstheory.cn/dukan/qs/2019-01/01/c_1123923852.htm
http://www.qstheory.cn/dukan/qs/2019-01/01/c_1123923828.htm
http://www.qstheory.cn/dukan/qs/2019-01/01/c_1123923817.htm
http://www.qstheory.cn/dukan/qs/2019-01/01/c_1123923778.htm
http://www.qstheory.cn