Python每日一练

最新推荐文章于 2024-06-01 13:35:31 发布

坚强的女程序员

最新推荐文章于 2024-06-01 13:35:31 发布

阅读量379

点赞数 1

本文链接：https://blog.csdn.net/qq_33438733/article/details/80718312

版权

本文作者分享了使用Python爬取CSDN个人博客的经历，包括获取博客页面数量、文章链接，以及如何将文章保存到本地。通过实践学习了bs4、urllib、os和functools等模块，尽管编码过程遇到挑战，但收获颇丰。

摘要由CSDN通过智能技术生成

前言

人生苦短，我用python【2018.6.17】
感觉练习也写的差不多了，近期正好想对自己的blog做一个备份，因此写了一个爬取csdn博客的py。

要求

根据blog的网址，爬取所有的原创文章。
参考链接：https://blog.csdn.net/qq_33438733
这里写图片描述

简要分析

获取该博客存在几个页面
获取每个页面中的文章链接
获取文章并保存到本地

代码

@log
def get_blog_urls(pages):
    blog_urls = []
    for page in pages:
        content = request.urlopen(page)
        soup = BeautifulSoup(content,

最低0.47元/天解锁文章

坚强的女程序员

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python每日一练

前言人生苦短，我用python【2018.6.17】感觉练习也写的差不多了，近期正好想对自己的blog做一个备份，因此写了一个爬取csdn博客的py。要求根据blog的网址，爬取所有的原创文章。参考链接：https://blog.csdn.net/qq_33438733 简要分析获取该博客存在几个页面获取每个页面中的文章链接获取文章并保存到本地代码...
复制链接

扫一扫