Java 判断中文及标点符号

最新推荐文章于 2022-12-28 15:16:05 发布

Charge8

最新推荐文章于 2022-12-28 15:16:05 发布

阅读量6k

点赞数 6

文章标签： Java 判断中文及标点符号

本文链接：https://blog.csdn.net/qq_42402854/article/details/105763546

版权

本文详细介绍如何使用Java判断字符串是否包含中文或英文字符，包括汉字、标点符号及字母数字。通过Unicode编码范围、UnicodeBlock和UnicodeScript，提供多种实用方法实现字符类型的精准识别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

开发中需要判断某个字符或者字符串是中文还是英文，从而做相应的处理，大多数会用到正则来判断的，其实也可以使用 Java 来判断。

Java Character 实现Unicode字符集介绍 CJK中文字符和中文标点等判断。此外，该类提供了用于确定字符的分类的几种方法（小写字母，数字，等）和由大写转换为小写字符，反之亦然。

Unicode中文范围参考文章：http://www.iteye.com/topic/558050

汉字：[0x4e00,0x9fa5]（或十进制[19968,40869]）

数字：[0x30,0x39]（或十进制[48, 57]）

小写字母：[0x61,0x7a]（或十进制[97, 122]）

大写字母：[0x41,0x5a]（或十进制[65, 90]）

在Java中，主要使用 Character类处理字符有关功能，Character 类中有3个静态内部类：

UnicodeBlock 与 UnicodeScript 关系：

1、UnicodeScript实现是在Java 7中新引入，UnicodeScript 是从语言书写规则层次对Unicode字符的分类，

2.、在一个 UnicodeScript中的字符可能分散在多个UnicodeBlock中；

3.、一个 UnicodeBlock中的字符可能会被划进多个UnicodeScript中。

中文的标点符号主要存在于以下5个UnicodeBlock中：

U2000-General Punctuation (百分号，千分号，单引号，双引号等)
U3000-CJK Symbols and Punctuation ( 顿号，句号，书名号，〸，〹，〺等；PS: 后面三个字符你知道什么意思吗？ : ) )
UFF00-Halfwidth and Fullwidth Forms ( 大于，小于，等于，括号，感叹号，加，减，冒号，分号等等)
UFE30-CJK Compatibility Forms (主要是给竖写方式使用的括号，以及间断线﹉，波浪线﹌等)
UFE10-Vertical Forms (主要是一些竖着写的标点符号，    等等)

编写的工具类和测试代码如下：

import java.util.regex.Pattern;

/**
 * @Description: 判断中文（汉字和标点符号）与英文工具类
 * @Date: 2020-04-24 15:43
 * @Version: V1.0
 */
public class ChineseAndEnglishUtils {
    private ChineseAndEnglishUtils() {
    }

    /**
     * 使用UnicodeBlock方法判断是否存在中文（包括汉字， 标点符号判断）
     *
     * @param str
     * @return true-存在，false-不存在
     */
    public static boolean checkChinesePunctuationByScript(String str) {
        if (str == null) {
            return false;
        }
        char[] chars = str.toCharArray();
        for (char aChar : chars) {
            if (isChineseByScript(aChar)) {
                return true;
            }
        }
        return false;
    }

    /**
     * 使用UnicodeScript方法判断是否存在中文（包括汉字， 标点符号判断）
     *
     * @param str
     * @return true-存在，false-不存在
     */
    public static boolean checkChinesePunctuationByBlock(String str) {
        if (str == null) {
            return false;
        }
        char[] chars = str.toCharArray();
        for (char aChar : chars) {
            if (isChineseByBlock(aChar)) {
                return true;
            }
        }
        return false;
    }

    /**
     * 使用Unicode编码范围来判断是否存在汉字， 标点符号不做判断
     *
     * @param str
     * @return true-存在，false-不存在
     */
    public static boolean checkChineseByUnicodeRange(String str) {
        if (str == null) {
            return false;
        }
        String regEx = "[\\u4e00-\\u9fa5]+";
        Pattern pattern = Pattern.compile(regEx);
        return pattern.matcher(str.trim()).find();
    }

    /**
     * 使用UnicodeBlock方法判断是否存在汉字， 标点符号不做判断
     *
     * @param c
     * @return true-存在，false-不存在
     */
    public static boolean isChineseByBlock(char c) {
        Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
        if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
                || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
                || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
                || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
                || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
                || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
                || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT) {
            return true;
        } else {
            return false;
        }
    }

    /**
     * 使用UnicodeScript方法判断是否存在汉字， 标点符号不做判断
     *
     * @param c
     * @return true-存在，false-不存在
     */
    public static boolean isChineseByScript(char c) {
        Character.UnicodeScript sc = Character.UnicodeScript.of(c);
        if (sc == Character.UnicodeScript.HAN) {
            return true;
        }
        return false;
    }

    /**
     * 根据UnicodeBlock方法判断中文标点符号
     *
     * @param c
     * @return true-存在，false-不存在
     */
    public static boolean isChinesePunctuation(char c) {
        Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
        if (ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
                || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
                || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
                || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS
                || ub == Character.UnicodeBlock.VERTICAL_FORMS) {
            return true;
        } else {
            return false;
        }
    }


    public static void main(String[] args) {
        System.out.println("=====使用Unicode编码范围来判断是否存在汉字， 标点符号不做判断======");
        System.out.println("abc中国,.d==" + checkChineseByUnicodeRange("abc中国,.d"));
        System.out.println("abc中d==" + checkChineseByUnicodeRange("abc中d"));
        System.out.println("abc，.d==" + checkChineseByUnicodeRange("abc，.d"));

        System.out.println("=====使用UnicodeBlock方法判断是否存在中文（包括汉字， 标点符号判断）=====");
        System.out.println("abc中国,.d==" + checkChinesePunctuationByBlock("abc中国,.d"));
        System.out.println("abc中d==" + checkChinesePunctuationByBlock("abc中d"));
        System.out.println("abc，.d==" + checkChinesePunctuationByBlock("abc，.d"));

        System.out.println("=====使用UnicodeScript方法判断是否存在中文（包括汉字， 标点符号判断）=====");
        System.out.println("abc中国,.d==" + checkChinesePunctuationByScript("abc中国,.d"));
        System.out.println("abc中d==" + checkChinesePunctuationByScript("abc中d"));
        System.out.println("abc，.d==" + checkChinesePunctuationByScript("abc，.d"));

        System.out.println("=====根据UnicodeBlock方法判断中文标点符号=====");
        System.out.println(".==" + isChinesePunctuation('.'));
        System.out.println("。==" + isChinesePunctuation('。'));
    }

}

ends~