我的个人博客:https://jmbaozi.top/,欢迎大家访问。
三天前我爬了自己博客的归档记录,但是一个博客最重要的内容是文章,所以今天我在看成果直播的时候顺手写了爬取我博客文章的程序,共爬取26篇博客。
每篇文章都用时间+标题+副标题为文件名,以Markdown格式保存在blogArticle文件夹中。
时间、标题和副标题的获取方式见上篇博客
在原来基础上获得博客的url,然后再通过url爬取博客的内容。
在获得标题的那一步,我们可以看到该篇博客的href信息,通过链接+href的方式来得到博客的url。
<section class="post-preview">
<a class="post-link" href="/2020/03/09/%E7%BD%91%E7%AB%99%E8%AE%BE%E7%BD%AE-%E8%B8%A9%E5%9D%91.html" title="阿里云ECS服务器部署"></a>
<h2 class="post-title">阿里云ECS服务器部署</h2>
<h3 class="post-subtitle">部署&踩坑</h3>
</section>
所以该篇博客的url为:https://jmbaozi.top/2020/03/09/%E7%BD%91%E7%AB%99%E8%AE%BE%E7%BD%AE-%E8%B8%A9%E5%9D%91.html
然后解析url,找到博客内容所属的标签<article,class_ = "markdown-body">
获得html格式的博客内容。
#获取文章
def get_article():