用python爬取csdn博客文章并保存到本地
这个案例用python爬取了csdn上指定关键字的文章,关键字自己输入,爬取页数自己输入,较为灵活。利用了urllib库和lxml库,并用到xpath插件。
案例分析
- 要下载博客,首先要找到博客的地址,用xpath插件找到所有博客地址
- 然后找到博客的标题,以此为本地html文件命名
代码实现注意
- request对象的url地址中代表页码和搜索关键字的关键字 不是固定的 这里用format输入
- 有些标题含有python认为的非法字符 包括以下9个,
/\\:*"<>|?
需要用re模块的sub方法将其替换为空
title = re.sub(r'[/\\:*"<>|?]','',title)
- 有一些博客可能不存在大标题 为了避免程序报错,加入try except
try:
title = le.HTML(response_blog)