前言
人生苦短,我用python【2018.6.17】
感觉练习也写的差不多了,近期正好想对自己的blog做一个备份,因此写了一个爬取csdn博客的py。
要求
根据blog的网址,爬取所有的原创文章。
参考链接:https://blog.csdn.net/qq_33438733
简要分析
获取该博客存在几个页面
获取每个页面中的文章链接
获取文章并保存到本地
代码
@log
def get_blog_urls(pages):
blog_urls = []
for page in pages:
content = request.urlopen(page)
soup = BeautifulSoup(content,