全半角字符转换

用户输入的内容经常既有全角字符,又有半角字符
在pinyin4j的分词中,会将全角字符转换为半角字符,造成分词前后字符不一致
为了解决这个问题,查找了Unicode表,写了全半角转换的工具如下:

/**
 * <PRE>
 * 提供对字符串的全角->半角,半角->全角转换
 * </PRE>
 */
public class BCConvertUtil {

    /**
     * ASCII表中可见字符从!开始,偏移位值为33(Decimal)
     */
    static final char DBC_CHAR_START = 33; // 半角!  

    /**
     * ASCII表中可见字符到~结束,偏移位值为126(Decimal)
     */
    static final char DBC_CHAR_END = 126; // 半角~  

    /**
     * 全角对应于ASCII表的可见字符从!开始,偏移值为65281
     */
    static final char SBC_CHAR_START = 65281; // 全角!  

    /**
     * 全角对应于ASCII表的可见字符到~结束,偏移值为65374
     */
    static final char SBC_CHAR_END = 65374; // 全角~  

    /**
     * ASCII表中除空格外的可见字符与对应的全角字符的相对偏移
     */
    static final int CONVERT_STEP = 65248; // 全角半角转换间隔  

    /**
     * 全角空格的值,它没有遵从与ASCII的相对偏移,必须单独处理
     */
    static final char SBC_SPACE = 12288; // 全角空格 12288  

    /**
     * 半角空格的值,在ASCII中为32(Decimal)
     */
    static final char DBC_SPACE = ' '; // 半角空格  

    /**
     * <PRE>
     * 半角字符->全角字符转换
     * 只处理空格,!到˜之间的字符,忽略其他
     * </PRE>
     */
    public static String bj2qj(String src) {
        if (src == null) {
            return null;
        }
        StringBuilder buf = new StringBuilder(src.length());
        src.chars().forEach(i -> buf.append(bj2qj((char) i)));
        return buf.toString();
    }

    public static char bj2qj(char c) {
        if (c == DBC_SPACE) { // 如果是半角空格,直接用全角空格替代
            return SBC_SPACE;
        } else if ((c >= DBC_CHAR_START) && (c <= DBC_CHAR_END)) { // 字符是!到~之间的可见字符
            return (char) (c + CONVERT_STEP);
        } else {
            return c;
        }
    }

    /**
     * <PRE>
     * 全角字符->半角字符转换
     * 只处理全角的空格,全角!到全角~之间的字符,忽略其他
     * </PRE>
     */
    public static String qj2bj(String src) {
        if (src == null) {
            return null;
        }
        StringBuilder buf = new StringBuilder(src.length());
        src.chars().forEach(i -> buf.append(qj2bj((char) i)));
        return buf.toString();
    }

    public static char qj2bj(char c) {
        if (c >= SBC_CHAR_START && c <= SBC_CHAR_END) { // 如果位于全角!到全角~区间内
            return (char) (c - CONVERT_STEP);
        } else if (c == SBC_SPACE) { // 如果是全角空格
            return DBC_SPACE;
        } else { // 不处理全角空格,全角!到全角~区间外的字符
            return c;
        }
    }

}  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值