Java对中文字符串按照拼音排序的思索

问题背景

正在开发一个音乐播放器的项目,有个小功能是按照曲目的名称排序曲目,原理是按照compareTo方法去比较字符串大小,但是中文字符串排序出来是乱序的
在这里插入图片描述

解决过程

探索了compareTo方法,一下子就发现问题了,如图
在这里插入图片描述
在这里插入图片描述
一般而言,中文我们是按照拼音进行排序,例如Windows系统中的文件“按照名称排序”就是这个原理。按理说“”应该在“”之前,而compareTo却给出了相反的结果

因此我们对中文排序时需要先将其转换为拼音,这里使用pinyin4j,依赖如下

<!-- 中文转拼音 -->
<dependency>
    <groupId>com.belerweb</groupId>
    <artifactId>pinyin4j</artifactId>
    <version>2.5.0</version>
</dependency>

使用方法: 创建HanyuPinyinOutputFormat对象,设置中文转拼音的参数(小写还是大写、带不带声调u是否用v代替)

private static HanyuPinyinOutputFormat format = new HanyuPinyinOutputFormat();

static {
    // 拼音小写
    format.setCaseType(HanyuPinyinCaseType.LOWERCASE);
    // 不带声调
    format.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
    // u 用 v 代替
    format.setVCharType(HanyuPinyinVCharType.WITH_V);
}

然后开始写比较字符串的方法,代码如下

/**
  * 比较两个字符串大小
  *
  * @param s1
  * @param s2
  * @return
  */
 public static int compare(String s1, String s2) throws BadHanyuPinyinOutputFormatCombination {
     for (int i = 0, len = Math.min(s1.length(), s2.length()); i < len; i++) {
         char c1 = s1.charAt(i), c2 = s2.charAt(i);
         // 两个字符相等,继续往后比较
         if (c1 == c2) continue;
         // c1 和 c2 都是中文字符,将其转换为拼音再用 compareTo 比较 ASCII 码
         if ((c1 + "").matches("[\\u4E00-\\u9FA5]+") && (c2 + "").matches("[\\u4E00-\\u9FA5]+"))
             return PinyinHelper.toHanyuPinyinStringArray(c1, format)[0].compareTo(PinyinHelper.toHanyuPinyinStringArray(c2, format)[0]);
         // 直接比较 CodePoint
         return c1 - c2;
     }
     return s1.length() - s2.length();
 }

完美解决!
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值