python 爬虫爬取内容时, \xa0 、 \u3000 的含义与处理方法
HTML转义字符&npsp;表示non-breaking space,unicode编码为u'\xa0',超出gbk编码范围?
如何处理:.extract_first().replace(u'\xa0', u' ').strip().encode('utf-8','replace') --->针对列表使用
\xa0 是不间断空白符
str.replace(u’\xa0’, u’ ‘)\u3000 是全角的空白符
str.replace(u’\u3000’,u’ ‘)title.strip(‘\r\n’).replace(u’\u3000’, u’ ‘).replace(u’\xa0’, u’ ‘)
content.strip(“”).strip(‘\r\n’).replace(u’\u3000’, u’ ‘).replace(u’\xa0’, u’ ‘)
补充:三种空格unicode(\u00A0,\u0020,\u3000)表示的区别
1.不间断空格\u00A0,主要用在office中,让一个单词在结尾处不会换行显示,快捷键ctrl+shift+space ;
2.半角空格(英文符号)\u0020,代码中常用的;
3.全角空格(中文符号)\u3000,中文文章中使用;