pinyin4j简单用法

pinyin4j是一个支持将中文转换到拼音的Java开源类库,pinyin4j能够根据中文字符获取其对应的拼音,而且拼音的格式可以定制。pinyin4j的主页:http://pinyin4j.sourceforge.net/
1. 支持简体中文和繁体中文字符;
2. 支持转换到汉语拼音,通用拼音, 威妥玛拼音(威玛拼法), 注音符号第二式, 耶鲁拼法和国语罗马字;
3. 支持多音字,即可以获取一个中文字符的多种发音;
4. 支持多种字符串输出格式,比如支持Unicode格式的字符ü和声调符号(阴平 "ˉ",阳平"ˊ",上声"ˇ",去声"ˋ")的输出。

简单的例子(支持多音字):


 

 

import java.util.HashSet;
import java.util.Set;

import net.sourceforge.pinyin4j.PinyinHelper;
import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;
import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;
import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;
import net.sourceforge.pinyin4j.format.HanyuPinyinVCharType;
import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination;

/*******************************************************************************
 * pinyin4j is a plug-in, you can kind of Chinese characters into phonetic.Multi-tone character,Tone
 * Detailed view http://pinyin4j.sourceforge.net/
 *
 * @author Administrator
 * @ClassName: Pinyin4jUtil
 * @Description: TODO
 * @author wang_china@foxmail.com
 * @date Jan 13, 2012 9:28:28 AM
 */
public class Pinyin4jUtil {

 /***************************************************************************
  * 获取中文汉字拼音 默认输出
  * @Name: Pinyin4jUtil.java
  * @Description: TODO
  * @author: wang_chian@foxmail.com
  * @version: Jan 13, 2012 9:54:01 AM
  * @param chinese
  * @return
  */
 public static String getPinyin(String chinese) {
  return getPinyinZh_CN(makeStringByStringSet(chinese));
 }

 /***************************************************************************
  * 拼音大写输出
  *
  * @Name: Pinyin4jUtil.java
  * @Description: TODO
  * @author: wang_chian@foxmail.com
  * @version: Jan 13, 2012 9:58:45 AM
  * @param chinese
  * @return
  */
 public static String getPinyinToUpperCase(String chinese) {
  return getPinyinZh_CN(makeStringByStringSet(chinese)).toUpperCase();
 }

 /***************************************************************************
  * 拼音小写输出
  *
  * @Name: Pinyin4jUtil.java
  * @Description: TODO
  * @author: wang_chian@foxmail.com
  * @version: Jan 13, 2012 9:58:45 AM
  * @param chinese
  * @return
  */
 public static String getPinyinToLowerCase(String chinese) {
  return getPinyinZh_CN(makeStringByStringSet(chinese)).toLowerCase();
 }

 /***************************************************************************
  * 首字母大写输出
  *
  * @Name: Pinyin4jUtil.java
  * @Description: TODO
  * @author: wang_chian@foxmail.com
  * @version: Jan 13, 2012 10:00:54 AM
  * @param chinese
  * @return
  */
 public static String getPinyinFirstToUpperCase(String chinese) {
  return getPinyin(chinese);
 }

 /***************************************************************************
  * 拼音简拼输出
  *
  * @Name: Pinyin4jUtil.java
  * @Description: TODO
  * @author: wang_chian@foxmail.com
  * @version: Jan 13, 2012 11:08:15 AM
  * @param chinese
  * @return
  */
 public static String getPinyinJianPin(String chinese) {
  return getPinyinConvertJianPin(getPinyin(chinese));
 }

 /***************************************************************************
  * 字符集转换
  *
  * @Name: Pinyin4jUtil.java
  * @Description: TODO
  * @author: wang_chian@foxmail.com
  * @version: Jan 13, 2012 9:34:11 AM
  * @param chinese
  *            中文汉字
  * @throws BadHanyuPinyinOutputFormatCombination
  */
 public static Set<String> makeStringByStringSet(String chinese) {
  char[] chars = chinese.toCharArray();
  if (chinese != null && !chinese.trim().equalsIgnoreCase("")) {
   char[] srcChar = chinese.toCharArray();
   String[][] temp = new String[chinese.length()][];
   for (int i = 0; i < srcChar.length; i++) {
    char c = srcChar[i];

    // 是中文或者a-z或者A-Z转换拼音
    if (String.valueOf(c).matches("[\\u4E00-\\u9FA5]+")) {

     try {
      temp[i] = PinyinHelper.toHanyuPinyinStringArray(
        chars[i], getDefaultOutputFormat());

     } catch (BadHanyuPinyinOutputFormatCombination e) {
      e.printStackTrace();
     }
    } else if (((int) c >= 65 && (int) c <= 90)
      || ((int) c >= 97 && (int) c <= 122)) {
     temp[i] = new String[] { String.valueOf(srcChar[i]) };
    } else {  
                    temp[i] = new String[] { String.valueOf(srcChar[i]) };  
                } 
   }
   String[] pingyinArray = Exchange(temp);
   Set<String> zhongWenPinYin = new HashSet<String>();
   for (int i = 0; i < pingyinArray.length; i++) {
    zhongWenPinYin.add(pingyinArray[i]);
   }
   return zhongWenPinYin;
  }
  return null;
 }

 /***************************************************************************
  * Default Format 默认输出格式
  *
  * @Name: Pinyin4jUtil.java
  * @Description: TODO
  * @author: wang_chian@foxmail.com
  * @version: Jan 13, 2012 9:35:51 AM
  * @return
  */
 public static HanyuPinyinOutputFormat getDefaultOutputFormat() {
  HanyuPinyinOutputFormat format = new HanyuPinyinOutputFormat();
  format.setCaseType(HanyuPinyinCaseType.LOWERCASE);// 小写
  format.setToneType(HanyuPinyinToneType.WITHOUT_TONE);// 没有音调数字
  format.setVCharType(HanyuPinyinVCharType.WITH_U_AND_COLON);// u显示
  return format;
 }

 /***************************************************************************
  *
  * @Name: Pinyin4jUtil.java
  * @Description: TODO
  * @author: wang_chian@foxmail.com
  * @version: Jan 13, 2012 9:39:54 AM
  * @param strJaggedArray
  * @return
  */
 public static String[] Exchange(String[][] strJaggedArray) {
  String[][] temp = DoExchange(strJaggedArray);
  return temp[0];
 }

 /***************************************************************************
  *
  * @Name: Pinyin4jUtil.java
  * @Description: TODO
  * @author: wang_chian@foxmail.com
  * @version: Jan 13, 2012 9:39:47 AM
  * @param strJaggedArray
  * @return
  */
 private static String[][] DoExchange(String[][] strJaggedArray) {
  int len = strJaggedArray.length;
  if (len >= 2) {
   int len1 = strJaggedArray[0].length;
   int len2 = strJaggedArray[1].length;
   int newlen = len1 * len2;
   String[] temp = new String[newlen];
   int Index = 0;
   for (int i = 0; i < len1; i++) {
    for (int j = 0; j < len2; j++) {
     temp[Index] = capitalize(strJaggedArray[0][i])
       + capitalize(strJaggedArray[1][j]);
     Index++;
    }
   }
   String[][] newArray = new String[len - 1][];
   for (int i = 2; i < len; i++) {
    newArray[i - 1] = strJaggedArray[i];
   }
   newArray[0] = temp;
   return DoExchange(newArray);
  } else {
   return strJaggedArray;
  }
 }

 /***************************************************************************
  * 首字母大写
  *
  * @Name: Pinyin4jUtil.java
  * @Description: TODO
  * @author: wang_chian@foxmail.com
  * @version: Jan 13, 2012 9:36:18 AM
  * @param s
  * @return
  */
 public static String capitalize(String s) {  
        char ch[];  
        ch = s.toCharArray();
        if (ch!= null && ch.length > 0) { //修改[/color]
         if (ch[0] >= 'a' && ch[0] <= 'z') {  
             ch[0] = (char) (ch[0] - 32);  
         }
        }
        String newString = new String(ch);  
        return newString;  
    } 


 /***************************************************************************
  * 字符串集合转换字符串(逗号分隔)
  *
  * @Name: Pinyin4jUtil.java
  * @Description: TODO
  * @author: wang_chian@foxmail.com
  * @version: Jan 13, 2012 9:37:57 AM
  * @param stringSet
  * @return
  */
 public static String getPinyinZh_CN(Set<String> stringSet) {
  StringBuilder str = new StringBuilder();
  int i = 0;
  for (String s : stringSet) {
   if (i == stringSet.size() - 1) {
    str.append(s);
   } else {
    str.append(s + ",");
   }
   i++;
  }
  return str.toString();
 }

 /***************************************************************************
  * 获取每个拼音的简称
  *
  * @Name: Pinyin4jUtil.java
  * @Description: TODO
  * @author: wang_chian@foxmail.com
  * @version: Jan 13, 2012 11:05:58 AM
  * @param chinese
  * @return
  */
 public static String getPinyinConvertJianPin(String chinese) {
  String[] strArray = chinese.split(",");
  String strChar = "";
  for (String str : strArray) {
   char arr[] = str.toCharArray(); // 将字符串转化成char型数组
   for (int i = 0; i < arr.length; i++) {
    if (arr[i] >= 65 && arr[i] < 91) { // 判断是否是大写字母
     strChar += new String(arr[i] + "");
    }
   }
   strChar += ",";
  }
  return strChar;
 }

 /***************************************************************************
  * Test
  *
  * @Name: Pinyin4jUtil.java
  * @Description: TODO
  * @author: wang_chian@foxmail.com
  * @version: Jan 13, 2012 9:49:27 AM
  * @param args
  */
 public static void main(String[] args) {
  String str = "单强";
  System.out.println("小写输出:" + getPinyinToLowerCase(str));
  System.out.println("大写输出:" + getPinyinToUpperCase(str));
  System.out.println("首字母大写输出:" + getPinyinFirstToUpperCase(str));
  System.out.println("简拼输出:" + getPinyinJianPin(str));

 }
}


 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
pinyin4j是一个Java库,用于将中文字符转换为拼音,并提供了一些方便的方法,如自然排序、汉字转拼音等功能。下面对pinyin4j的源码进行简单的浅析,并介绍如何使用pinyin4j对中文字符进行自然排序。 pinyin4j的主要类是PinyinHelper,它提供了将汉字转换为拼音的方法。PinyinHelper类包含了以下方法: 1. public static String[] toHanyuPinyinStringArray(char c):将字符c转换为拼音数组。 2. public static String[] toHanyuPinyinStringArray(char c, HanyuPinyinOutputFormat outputFormat):将字符c转换为拼音数组,并指定输出格式。 3. public static String[] toHanyuPinyinStringArray(String str):将字符串str转换为拼音数组。 4. public static String[] toHanyuPinyinStringArray(String str, HanyuPinyinOutputFormat outputFormat):将字符串str转换为拼音数组,并指定输出格式。 其中HanyuPinyinOutputFormat为拼音输出格式,包含了拼音的大小写、声调等信息。 除了PinyinHelper类外,pinyin4j还提供了一个Collator类,用于对中文字符进行自然排序。Collator类的使用方法如下: 1. 创建一个Collator对象:Collator collator = Collator.getInstance(Locale.CHINA); 2. 使用Collator对象进行排序:Arrays.sort(array, collator); 其中array为需要排序的数组,collator为用于排序的Collator对象。 下面是使用pinyin4j对中文字符进行自然排序的示例代码: ``` import java.util.Arrays; import java.util.Locale; import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType; import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat; import net.sourceforge.pinyin4j.format.HanyuPinyinToneType; import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination; import net.sourceforge.pinyin4j.PinyinHelper; import java.text.Collator; public class ChineseSort { public static void main(String[] args) throws BadHanyuPinyinOutputFormatCombination { String[] array = new String[]{"张三", "李四", "王五", "赵六", "田七"}; // 创建一个输出格式对象,指定拼音大小写、声调等信息 HanyuPinyinOutputFormat outputFormat = new HanyuPinyinOutputFormat(); outputFormat.setCaseType(HanyuPinyinCaseType.UPPERCASE); outputFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); outputFormat.setVCharType(null); // 使用PinyinHelper类将中文转换为拼音 for (int i = 0; i < array.length; i++) { StringBuilder sb = new StringBuilder(); for (char c : array[i].toCharArray()) { if (Character.toString(c).matches("[\\u4E00-\\u9FA5]+")) { String[] pinyinArray = PinyinHelper.toHanyuPinyinStringArray(c, outputFormat); sb.append(pinyinArray[0]); } else { sb.append(Character.toString(c)); } } array[i] = sb.toString(); } // 创建一个Collator对象,用于对中文字符进行自然排序 Collator collator = Collator.getInstance(Locale.CHINA); // 使用Collator对象进行排序 Arrays.sort(array, collator); // 输出结果 for (String s : array) { System.out.println(s); } } } ``` 运行以上代码,输出结果为: ``` LISI TIANQI WANGWU ZHANSHAN ZHAOLIU ``` 可以看到,中文字符已经被转换为了对应的拼音,并且按照拼音的顺序进行了排序。 总之,pinyin4j是一个非常实用的Java库,可以方便地将中文字符转换为拼音,并提供了一些方便的方法,如自然排序、汉字转拼音等功能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值