最近在日志数据清洗时遇到中文乱码,如果只要有非中文字符就将该字符串过滤掉,这种方法虽简单但并不可取,因为比如像Xperia™主題
、天天四川麻将Ⅱ
这样的字符串也会被过滤掉。
1. Unicode编码
Unicode编码是一种涵盖了世界上所有语言、标点等字符的编码方式,简单一点说,就是一种通用的世界码;其编码范围:U+0000 .. U+10FFFF
。按Unicode硬编码的区间进行划分,Unicode编码被分成若干个block ( Unicode block);每一个Unicode编码专属于唯一的Unicode block,Unicode block之间互不重叠。从码字的本身的属性出发,Unicode编码被分成了若干script ( Unicode script);比如,与中文相关的字符、标点的scriptHan
包括block如下:
- CJK Radicals Supplement
- Kangxi Radicals
- CJK Symbols and Punctuation中的15个字符
- CJK Unified Ideographs Extension A
- CJK Unified Ideographs
- CJK Compatibi