java 如何判断字符串是否中文乱码

regedit80

已于 2024-03-29 12:53:55 修改

阅读量853

点赞数 4

文章标签： java

于 2024-03-27 17:15:10 首次发布

本文链接：https://blog.csdn.net/regedit80/article/details/137083121

版权

public static boolean isMessyCode(String str) {
Pattern p = Pattern.compile("\\s*|\\t*|\\r*|\\n*");
Matcher m = p.matcher(str);
String after = m.replaceAll("");
String temp = after.replaceAll("\\p{P}", "");
char[] ch = temp.trim().toCharArray();
float chLength = 0;
float count = 0;
for (int i = 0; i < ch.length; i++) {
char c = ch[i];
if (!Character.isLetterOrDigit(c)) {
if (!isChinese(c)) {
count++;
}
chLength++;
}
}
float result = count / chLength;
return result > 0.4;
}

private static boolean isChinese(char c) {
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
return ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS ||
ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS ||
ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A ||
ub == Character.UnicodeBlock.GENERAL_PUNCTUATION ||
ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION ||
ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS;
}

#### 1. `isMessyCode` 方法

这个方法的目的是判断传入的字符串 `str` 是否包含乱码字符。它通过以下步骤进行判断：

1. **去除空白字符**：使用正则表达式 `\\s*|\\t*|\\r*|\\n*` 去除字符串中的所有空白字符（包括空格、制表符、回车和换行符）。

2. **去除标点符号**：使用正则表达式 `\\p{P}` 去除字符串中的所有标点符号。

3. **检查字符**：将处理后的字符串转换为字符数组 `ch`，并对每个字符进行遍历。

4. **计算乱码字符比例**：对于数组中的每个字符 `c`，如果它既不是字母也不是数字，并且不是中文字符（通过 `isChinese` 方法判断），则将其视为乱码字符，并计数。同时，记录总字符数 `chLength`。

5. **计算结果**：计算乱码字符的比例 `result`，即乱码字符数除以总字符数。如果这个比例大于 `0.4`（40%），则认为字符串包含乱码。

#### 2. `isChinese` 方法

这个方法用于判断一个字符是否为中文字符。它通过以下步骤进行判断：

1. **获取字符的Unicode块**：使用 `Character.UnicodeBlock.of(c)` 获取字符 `c` 所属的Unicode块。

2. **比较Unicode块**：如果字符所属的Unicode块是中文字符所在的块（如 `CJK_UNIFIED_IDEOGRAPHS`、`CJK_COMPATIBILITY_IDEOGRAPHS` 等），则认为该字符是中文字符，并返回 `true`。否则返回 `false`。

#### 3. `toChinese` 方法

这个方法尝试将可能包含乱码的字符串 `msg` 转换为正确的编码。它首先调用 `isMessyCode` 方法来判断字符串是否包含乱码。如果包含乱码，它将尝试使用 `ISO-8859-1` 编码将字符串转换为字节数组，然后再使用 `UTF-8` 编码将字节数组转换回字符串。如果转换成功，返回转换后的字符串；否则返回原始字符串。

### 注意事项

- 这个方法假设乱码字符主要是由于编码不匹配造成的，且乱码字符通常不是字母、数字或中文字符。
- `isMessyCode` 方法中设置的乱码字符比例阈值 `0.4` 是经验值，可能需要根据实际情况进行调整。
- 由于编码转换可能会失败（例如，如果原始编码不是 `ISO-8859-1`），`toChinese` 方法中使用了 `try-catch` 块来捕获可能发生的 `UnsupportedEncodingException`。
- 这个方法可能无法准确判断所有类型的乱码，特别是在处理复杂文本时。对于更精确的编码检测和转换，可能需要使用专业的字符编码检测库。