python爬虫爬取内容中,-xa0,-u3000的含义

最近用scrapy爬某网站,发现拿到的内容里面含有\xa0、\u3000这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少233。

\xa0是不间断空白符 

我们通常所用的空格是\x20,是在标准ASCII可见字符0x20~0x7e范围内。
而\xa0属于latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breaking space)。
latin1字符集向下兼容ASCII(0x20~0x7e)。通常我们见到的字符多数是latin1的,比如在MySQL数据库中。

这里也有一张简陋的Latin1字符集对照表。

\u3000是全角的空白符

根据Unicode编码标准及其基本多语言面的定义,\u3000属于CJK字符的CJK标点符号区块内,是空白字符之一。它的名字是Ideographic Space,有人译作表意字空格、象形字空格等。顾名思义,就是全角的CJK空格。它跟nbsp不一样,是可以被换行间断的。常用于制造缩进,wiki还说用于抬头,但没见过。

这里还有一个Unicode.org上关于CJK标点符号块的字符代码表。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值