Python爬虫-爬取博客文章

本文介绍了作者如何使用Python爬虫程序抓取自己博客上的文章,总共爬取了26篇,并以时间+标题+副标题的方式命名Markdown文件存储在blogArticle文件夹中。文章详细说明了从获取博客URL到解析HTML内容的过程。
摘要由CSDN通过智能技术生成

我的个人博客:https://jmbaozi.top/,欢迎大家访问。

三天前我爬了自己博客的归档记录,但是一个博客最重要的内容是文章,所以今天我在看成果直播的时候顺手写了爬取我博客文章的程序,共爬取26篇博客。

每篇文章都用时间+标题+副标题为文件名,以Markdown格式保存在blogArticle文件夹中。

时间、标题和副标题的获取方式见上篇博客

在原来基础上获得博客的url,然后再通过url爬取博客的内容。

在获得标题的那一步,我们可以看到该篇博客的href信息,通过链接+href的方式来得到博客的url。

<section class="post-preview">
  <a class="post-link" href="/2020/03/09/%E7%BD%91%E7%AB%99%E8%AE%BE%E7%BD%AE-%E8%B8%A9%E5%9D%91.html" title="阿里云ECS服务器部署"></a>
  <h2 class="post-title">阿里云ECS服务器部署</h2>
  <h3 class="post-subtitle">部署&踩坑</h3>
</section>

所以该篇博客的url为:https://jmbaozi.top/2020/03/09/%E7%BD%91%E7%AB%99%E8%AE%BE%E7%BD%AE-%E8%B8%A9%E5%9D%91.html

然后解析url,找到博客内容所属的标签<article,class_ = "markdown-body">获得html格式的博客内容。

#获取文章
def get_article():
    
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值