Java对中文字符串按照拼音排序的思索

问题背景

正在开发一个音乐播放器的项目,有个小功能是按照曲目的名称排序曲目,原理是按照compareTo方法去比较字符串大小,但是中文字符串排序出来是乱序的
在这里插入图片描述

解决过程

探索了compareTo方法,一下子就发现问题了,如图
在这里插入图片描述
在这里插入图片描述
一般而言,中文我们是按照拼音进行排序,例如Windows系统中的文件“按照名称排序”就是这个原理。按理说“”应该在“”之前,而compareTo却给出了相反的结果

因此我们对中文排序时需要先将其转换为拼音,这里使用pinyin4j,依赖如下

<!-- 中文转拼音 -->
<dependency>
    <groupId>com.belerweb</groupId>
    <artifactId>pinyin4j</artifactId>
    <version>2.5.0</version>
</dependency>

使用方法: 创建HanyuPinyinOutputFormat对象,设置中文转拼音的参数(小写还是大写、带不带声调u是否用v代替)

private static HanyuPinyinOutputFormat format = new HanyuPinyinOutputFormat();

static {
    // 拼音小写
    format.setCaseType(HanyuPinyinCaseType.LOWERCASE);
    // 不带声调
    format.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
    // u 用 v 代替
    format.setVCharType(HanyuPinyinVCharType.WITH_V);
}

然后开始写比较字符串的方法,代码如下

/**
  * 比较两个字符串大小
  *
  * @param s1
  * @param s2
  * @return
  */
 public static int compare(String s1, String s2) throws BadHanyuPinyinOutputFormatCombination {
     for (int i = 0, len = Math.min(s1.length(), s2.length()); i < len; i++) {
         char c1 = s1.charAt(i), c2 = s2.charAt(i);
         // 两个字符相等,继续往后比较
         if (c1 == c2) continue;
         // c1 和 c2 都是中文字符,将其转换为拼音再用 compareTo 比较 ASCII 码
         if ((c1 + "").matches("[\\u4E00-\\u9FA5]+") && (c2 + "").matches("[\\u4E00-\\u9FA5]+"))
             return PinyinHelper.toHanyuPinyinStringArray(c1, format)[0].compareTo(PinyinHelper.toHanyuPinyinStringArray(c2, format)[0]);
         // 直接比较 CodePoint
         return c1 - c2;
     }
     return s1.length() - s2.length();
 }

完美解决!
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
©️2022 CSDN 皮肤主题:书香水墨 设计师:CSDN官方博客 返回首页
评论

打赏作者

来自大山深处的Doge_

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值