手机上通用的UTF8转换程序(转)

最近发现JAVA的UTF转换函数有BUG,在某些手机上(如K700)会出现乱码,与是上网查询了一下,在国外论坛上找到了一个UTF8转换函数,在我们公司所有测试机上都能正常转换,觉得效果还可以

private final String readUnicodeFileUTF8(String filename) {
StringBuffer sb = new StringBuffer(256);
try {
int[] surrogatePair = new int[2];
InputStream is = this.getClass().getResourceAsStream(filename);

int val = 0;
int unicharCount = 0;
while ((val = readNextCharFromStreamUTF8(is))!=-1) {
unicharCount++;
if (val <= 0xFFFF) {
// if first value is the Byte Order Mark (BOM), do not add
if (! (unicharCount == 1 && val == 0xFEFF)) {
sb.append((char)val);
}
} else {
supplementCodePointToSurrogatePair(val, surrogatePair);
sb.append((char)surrogatePair[0]);
sb.append((char)surrogatePair[1]);
}
}
is.close();
} catch (Exception e) {};

return new String(sb);
}

private final static int readNextCharFromStreamUTF8(InputStream is) {
int c = -1;
if (is==null) return c;
boolean complete = false;

try {
int byteVal;
int expecting=0;
int composedVal=0;

while (!complete && (byteVal = is.read()) != -1) {
if (expecting > 0 && (byteVal & 0xC0) == 0x80) { /* 10xxxxxx */
expecting--;
composedVal = composedVal | ((byteVal & 0x3F) << (expecting*6));
if (expecting == 0) {
c = composedVal;
complete = true;
//System.out.println("appending: U+" + Integer.toHexString(composedVal) );
}
} else {
composedVal = 0;
expecting = 0;
if ((byteVal & 0x80) == 0) { /* 0xxxxxxx */
// one byte character, no extending byte expected
c = byteVal;
complete = true;
//System.out.println("appending: U+" + Integer.toHexString(byteVal) );
} else if ((byteVal & 0xE0) == 0xC0) { /* 110xxxxx */
expecting = 1; // expecting 1 extending byte
composedVal = ((byteVal & 0x1F) << 6);
} else if ((byteVal & 0xF0) == 0xE0) { /* 1110xxxx */
expecting = 2; // expecting 2 extending bytes
composedVal = ((byteVal & 0x0F) << 12);
} else if ((byteVal & 0xF8) == 0xF0) { /* 11110xxx */
expecting = 3; // expecting 3 extending bytes
composedVal = ((byteVal & 0x07) << 18);
} else {
// non conformant utf-8, ignore or catch error
}
}
}

} catch (Exception e) {
System.out.println(e.toString());
}

return c;
}

private final static void supplementCodePointToSurrogatePair(int codePoint, int[] surrogatePair) {
int high4 = ((codePoint >> 16) & 0x1F) - 1;
int mid6 = ((codePoint >> 10) & 0x3F);
int low10 = codePoint & 0x3FF;

surrogatePair[0] = (0xD800 | (high4 << 6) | (mid6));
surrogatePair[1] = (0xDC00 | (low10));
}


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/10294527/viewspace-126915/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/10294527/viewspace-126915/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Delphi是一种编程语言,它支持字符串的编码方式有很多种,其中一种是UTF-8。当我们使用UTF-8编码的字符串文件,可能会出现乱码的情况,这种情况可能是由于文件保存时使用了其他编码格式或者文件本身内容就是乱码造成的。我们需要使用一些方法来进行UTF-8转换,从而解决乱码问题。 首先,可以尝试使用系统自带的函数进行UTF-8编码和解码处理,比如使用"AnsiToUtf8"函数将字符串转换为UTF-8编码格式。但是需要注意的是,这种方法只支持部分字符集,如果遇到一些非常规字符,依然可能会出现乱码。 其次,我们可以使用第三方库进行UTF-8转换。比如"iconv"库可以将不同编码格式的字符串相互转换,比如将ANSI编码格式的字符串转换成UTF-8编码格式的字符串。另外,还有一些Unicode库也可以进行UTF-8转换,比如"JEDI Code Library"。 最后,如果以上两种方法都不行,可以考虑使用文本编辑器处理乱码问题。比如将文本编辑器的编码格式修改为UTF-8格式,再打开乱码文件,并保存一遍即可。这种方法虽然比较麻烦,但往往可以解决绝大部分乱码问题。 ### 回答2: Delphi 是 Pascal 语言的一个高级集成开发环境,它支持 Unicode 编码。但在一些特定情况下,当我们使用 UTF-8 编码时,Delphi 可能会出现乱码问题。 要解决这个问题,我们可以采取以下方法: 1. 设置字符集 在 Delphi 的字符串和文件中,我们可以设置字符集以指示编码格式。可以使用 TEncoding 类和 TStringStream 类来集中处理编码问题,以便让 Delphi 处理 UTF-8 格式的数据时不会出现乱码。 2. 采用 Unicode 字符串 Unicode 是由万国码 (UCS)(Universal Character Set,ISO 10646)标准统一编码方式,它允许处理任何语言所使用的字符。在 Delphi 中,我们可以使用 Unicode 字符串来处理 UTF-8 编码的数据,以避免乱码问题。 3. 码 如果从其他程序获得的 UTF-8 编码的数据出现了乱码问题,我们可以尝试将其转换成 Delphi 可以处理的编码方式,比如 Unicode 字符串,可以使用 TEncoding 类进行转换。 总之,在 Delphi 中处理 UTF-8 格式的数据时出现乱码问题,我们应该通过设置字符集、采用 Unicode 字符串、码等方法来解决。这样可以确保 Delphi 处理这些数据时不会出现编码相关的错误。 ### 回答3: Delphi 是一种编程语言,在字符编码方面,它默认使用的是 ASCII 编码。而 UTF-8 是一种全球通用的字符编码方式,它支持各种语言文字的编码和展示。因此,在 Delphi 中进行 UTF-8 编码转换时可能会出现乱码的情况。 若要解决 Delphi UTF-8 转换乱码问题,可以使用 Delphi 中自带的 WideString 类型,在这种类型下,可以使用 WideChar 格式对字符进行编码和解码,避免编码转换过程中出现乱码。 另一种解决 Delphi UTF-8 转换乱码问题的方法是使用第三方库,如 UTF8String、Utf8Decode、Utf8Encode 等,这些库能够将 UTF-8 编码的字符转换为 Unicode 格式的字符,再进一步进行处理,展示出正确的结果。 总之,在 Delphi 中进行 UTF-8 编码转换时,需要注意使用正确的编码方式,防止出现乱码的情况。可以使用 Delphi 自带的 WideString 类型或第三方库来实现 UTF-8 编码转换,保证编码的正确性和稳定性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值