Python爬虫-爬取博客文章-CSDN博客

本文链接：https://blog.csdn.net/qq_43547504/article/details/104849956

本文介绍了作者如何使用Python爬虫程序抓取自己博客上的文章，总共爬取了26篇，并以时间+标题+副标题的方式命名Markdown文件存储在blogArticle文件夹中。文章详细说明了从获取博客URL到解析HTML内容的过程。

摘要由CSDN通过智能技术生成

我的个人博客：https://jmbaozi.top/，欢迎大家访问。

三天前我爬了自己博客的归档记录，但是一个博客最重要的内容是文章，所以今天我在看成果直播的时候顺手写了爬取我博客文章的程序，共爬取26篇博客。

每篇文章都用时间+标题+副标题为文件名，以Markdown格式保存在blogArticle文件夹中。

时间、标题和副标题的获取方式见上篇博客

在原来基础上获得博客的url，然后再通过url爬取博客的内容。

在获得标题的那一步，我们可以看到该篇博客的href信息，通过链接+href的方式来得到博客的url。

<section class="post-preview">
  <a class="post-link" href="/2020/03/09/%E7%BD%91%E7%AB%99%E8%AE%BE%E7%BD%AE-%E8%B8%A9%E5%9D%91.html" title="阿里云ECS服务器部署"></a>
  <h2 class="post-title">阿里云ECS服务器部署</h2>
  <h3 class="post-subtitle">部署&踩坑</h3>
</section>