接到上页 https://blog.csdn.net/naner3344/article/details/81146518 我们已经把文章清单列表抓取了,接下来我们就是逐一抓取文章
抓取文章内容比上页还要简单些,但是一抓下来发现里面混了很多html标签
这个里面大部分都是html标签, 比较麻烦,尝试了很多种方法去除都不是很好,最后看见别人用正则表达式,试了一下效果很好
pattern = re.compile(r'<[^>]+>', re.S)
result = pattern.sub('', str(html))
效果图
基本还行吧,但是还有些特殊的东西如   这种东西在网页里面是解析成空格,但是爬虫不知道&#