python爬取文章标题和内容并保存为word_Python爬取博客的所有文章并存为带目录的word文档(实例67)...

最新推荐文章于 2023-07-03 00:16:49 发布

weixin_39741459

最新推荐文章于 2023-07-03 00:16:49 发布

阅读量1.3k

点赞数 1

文章标签： python爬取文章标题和内容并保存为word

本文链接：https://blog.csdn.net/weixin_39741459/article/details/111444337

版权

本文介绍了如何使用Python爬取新浪博客的文章，获取标题、发表日期和内容，然后将这些信息保存到一个带有目录的Word文档中，方便通过导航窗格快速查找和阅读。首先，获取所有文章的URL和相关信息，接着批量爬取每篇文章的内容，最后将数据整合到Word文档中，实现一键下载整个博客。

摘要由CSDN通过智能技术生成

看上博客上一个作者的文章，想一次性下载到一个word文件中，并且可以设置好目录，通过word的“导航窗格”快速定位单篇文章。一劳永逸，从此再也不用去博客上一篇一篇地翻阅了。整理一下步骤：先获取到所有文章的标题、发表日期、链接

通过链接获取文章的内容

将文章标题作为“1级”，发表日期和内容作为正文写入word文件

保存wrod文件

下面就按照以上步骤进行操作。

先进入到目标博客的主页，点击“博文目录”，这样就在网址栏看到“http://blog.sina.com.cn/s/articlelist_5119330124_0_1.html” 。再点击下一页，可以看到网址末尾的“1”变成了“2”。这样我们就知道所有页对应的网址了(尾号从1到5)。

先挑第一页的网址，定位我们需要的信息，以便后续批量爬取。在博文的标题和发表日期上分别点右键，选择“检查”，在浏览器右侧看到如下信息。可见博文标题和博文链接都位于class="atc_title"下面，发表时间位于class="atc_tm SG_txtc"下面。

因此使用soup.select('.atc_title')就可以获取当前网页的所有博文的链接和标题；使用soup.select('.atc_tm')可获取所有博文的发表日期。慢着，不是发表时间对应的class是"atc_tm SG_txtc"吗？怎么这里只取了atc_tm呢？这是因为atc_tm和SG_txtc之间有个空格，如果原样取