爬取到html内容含有  (no-break space = non-breaking space(html中的键盘输入的多个空格会被折断为一个空格)) 时,将该内容无法GBK形式编码,为了不影响编码,应该使用方法
string.replace(u'\xa0', u' ')
其中string为待操作的字符串
爬取到html内容含有  (no-break space = non-breaking space(html中的键盘输入的多个空格会被折断为一个空格)) 时,将该内容无法GBK形式编码,为了不影响编码,应该使用方法
string.replace(u'\xa0', u' ')
其中string为待操作的字符串