在使用Python爬虫的时候,对于 html 中存在很多空行,空格的处理问题。
很多文章是存 word 中直接复制到到网页上的,对于这种方式编辑的 html 结构可能比较混乱。如何净化或者说格式化这种 html,快速过滤出换行符、空格、中文空格等。
在jupyter notebook里面,以下为步骤:
1.首先 import re
2.其次 a = re.compile(r'\n| |\xa0|\\xa0|\u3000|\\u3000|\\u0020|\u0020|\t|\r')
clean_str = a.sub('', str)
其中 str为你需要去除特殊字符的字符串,clean_str 为清除特殊字符后得到的字符串。