1.使用的jar包heaven-0.1.129.jar、nlp-common-0.0.3.jar、opencc4j-1.6.0.jar
2.写成工具方法
/**
* 转换字符串中的繁体中文为简体中文
*/
public static String changeToSimpleChinese(String searchName) {
StringBuilder stringBuilder = new StringBuilder();
int n = 0;
for(int i = 0; i < searchName.length(); i++) {
n = (int)searchName.charAt(i);
char c = searchName.charAt(i);
String s = String.valueOf(c);
if(!(19968 <= n && n <40869)) {
stringBuilder.append(c);
}else {
List<String> strings = ZhConverterUtil.toSimple(c);
if (strings != null) {
int z = 1;
//下面用于解决:如果出现简体字转简体居然不是同一个字的时候
for (String string : strings) {
if (string.equals(s)) {
stringBuilder.append(string);
} else if (strings.size() == z) {
stringBuilder.append(strings.get(0));
}
z++;
}
} else {
stringBuilder.append(c);
}
}
}
return stringBuilder.toString();
}
/**
* 转换字符串中的简体中文为繁体中文
*/
public static String changeToTraditionalChinese(String searchName) {
StringBuilder stringBuilder = new StringBuilder();
int n = 0;
for(int i = 0; i < searchName.length(); i++) {
n = (int)searchName.charAt(i);
char c = searchName.charAt(i);
String s = String.valueOf(c);
if(!(19968 <= n && n <40869)) {
stringBuilder.append(c);
}else {
List<String> strings = ZhConverterUtil.toTraditional(c);
if (strings != null) {
int z = 1;
//下面用于解决:如果出现繁体字转繁体字居然不是同一个字的时候
for (String string : strings) {
if (string.equals(s)) {
stringBuilder.append(string);
} else if (strings.size() == z) {
stringBuilder.append(strings.get(0));
}
z++;
}
} else {
stringBuilder.append(c);
}
}
}
return stringBuilder.toString();
}
3.测试一下
public static void main(String[] args) {
String test = "234sejs飞翔的河南人國動达人电脑饮食";
String simpleChinese = changeToSimpleChinese(test);
System.out.println(simpleChinese);
String traditionalChinese = changeToTraditionalChinese(test);
System.out.println(traditionalChinese);
}
234sejs飞翔的河南人国动达人电脑饮食
234sejs飛翔的河南人國動達人電腦飲食
4.char值在19968-40869之间的为中文的Unicode编码区域。由于同一个简体中文可能出现多个繁体或者一个繁体中文出现多个简体的情况(列如“周”),所以取的时候只取到了集合的第一个(一般第一个比较通用)。opencc4j中自带了分词器,但是由于可能会出现对字符串分词的不准确导致转换失败,所以采用这种给字符串中的每一个字符进行转换的方式。参考了关于编码的博客https://blog.csdn.net/weixin_44062339/article/details/96964465