UTF8使用1-4个字节表示一个字符
一个字节 00-7F ASCII码0-127
二个字节C0-DF 拉丁文等欧洲文字,阿拉伯文
三个字节E0-EF 中日韩朝文字 东南亚文字
四个字节F0-FF
编码格式
0xxxxxxx
110xxxxx 10xxxxxx (0x80-0xDF)
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
/art/runtime/jni/check_jni.cc
CheckUtfBytes(const char* bytes, const char** errorKind)
if ((*utf8 & 0xc0) != 0x80) {
*errorKind = "continuation";
return utf8;
}