今天的任务是在 drupal_set_error里检测加入不符合条件的字符的UTF8信息。
先用了iconv()
然后 mb系列。
这里值得一提的是,这两个函数都是转码用的 并不能得到编码
然后utf decode 这个更坑爹。也是转码用的。。。
无奈自己写了个
$utf8 = ord($value{0});
$hex = '0x' . dechex($utf8);
if ($utf8 > 192) {
$hex .= ' 0x' . dechex(ord($value{1}));
}
if ($utf8 > 224) {
$hex .= ' 0x' . dechex(ord($value{2}));
}
if ($utf8 > 240) {
$hex .= ' 0x' . dechex(ord($value{1}));
}
if ($utf8 > 248) {
$hex .= ' 0x' . dechex(ord($value{4}));
}
elseif ($utf8 > 252) {
$hex .= ' 0x' . dechex(ord($value{5}));
}
解释一下
utf8 的官方资料这样说的:
Unicode和UTF-8之間的轉换關係表
UTF-8字节流
U+00000000 – U+0000007F
0xxxxxxx
U+00000080 – U+000007FF
110xxxxx 10xxxxxx
U+00000800 – U+0000FFFF
1110xxxx 10xxxxxx 10xxxxxx
U+00010000 – U+001FFFFF
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U+00200000 – U+03FFFFFF
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U+04000000 – U+7FFFFFFF
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
小伙伴们可以看到,UTF8 是根据取第一个八位二进制的数值决定后面的编码的。那么,ord函数,我们就取了字符的第一个八位二进制编码的十进制版本。于是乎就算出一下这些数值的函数便好了:
00000000 0
11000000 192
11100000 224
11110000 240
11111000 248
11111100 252
当大于这一数值时,我们可以认为后面0占位的地方有1出现,那么 后面的区段必须有数值,这样,在$hex后面加入区段即可。
今天比较简单,php。据说讲解php容易被误认为拍簧片。。好吧。