用python爬取csdn博客文章并保存到本地
这个案例用python爬取了csdn上指定关键字的文章,关键字自己输入,爬取页数自己输入,较为灵活。利用了urllib库和lxml库,并用到xpath插件。
案例分析
- 要下载博客,首先要找到博客的地址,用xpath插件找到所有博客地址

- 然后找到博客的标题,以此为本地html文件命名

代码实现注意
- request对象的url地址中代表页码和搜索关键字的关键字 不是固定的 这里用format输入
- 有些标题含有python认为的非法字符 包括以下9个,
/\\:*"<>|?
需要用re模块的sub方法将其替换为空
title = re.sub(r'[/\\:*"<>|?]','',title)
- 有一些博客可能不存在大标题 为了避免程序报错,加入try except
try:
title = le.HTML(response_blog).xpath('//h1[@class="title-article"]/text()')</

本文介绍了如何使用Python爬取CSDN博客文章,涉及urllib和lxml库,利用XPath插件获取博客链接和标题。通过自定义关键字和页数,将博客保存为本地HTML文件。在实现过程中,需注意URL中页码和关键字的动态插入,以及处理标题中的非法字符,防止程序异常。
最低0.47元/天 解锁文章


被折叠的 条评论
为什么被折叠?



