- 博客(1)
- 收藏
- 关注
转载 python 用正则识别中文
匹配双字节字符(包括汉字在内):[^\x00-\xff]早期编码都用ASCII编码,用一个字节来处理编码。如大写A编码为65,但处理中文时候,一个字节显然不够,至少两哥字节,还不能和ASCII冲突,,中国制定GB2312编码,把中文编进去。 类似的,韩国,日本都出来格子标准,结果就是多语言 混合的文本中会出现乱码。 因此,Unicode应运而生。Unicode把所有语言都统一到一套编码里,这样就不...
2018-04-25 23:36:03 920
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人