根据以下规则,UTF8中的字符长度可以为1到4个字节:
对于1字节字符,第一位为0,后跟其unicode码。
对于n字节字符,前n位全为1,n + 1位为0,其后为n-1个字节,其中最高有效2位为10。
这是UTF-8编码的工作方式:
字符。数字范围| UTF-8字节序列
(十六进制)| (二进制)
-------------------- + ----------------------------- ----------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
给定表示数据的整数数组,请返回其是否为有效的utf-8编码。
Java解决方案
public boolean validUtf8(int[] data) {
int i=0;
int count=0;
while(i
int v = data[i];
if(count==0){
if((v&240)==240 && (v&248)==240){
count=3;
}else if(((v&224)==224) && (v&240)==224){
count=2;
}else if((v&192)==192 && (v&224)==192){
count=1;
}else if((v|127)==127){
count=0;
}else{
return false;
}
}else{
if((v&128)==128 && (v&192)==128){
count--;
}else{
return false;
}
}
i++;
}
return count==0;}
最后,开发这么多年我也总结了一套学习Java的资料与面试题,如果你在技术上面想提升自己的话,可以关注我,私信发送领取资料或者在评论区留下自己的联系方式,有时间记得帮我点下转发让跟多的人看到哦。