判断文件中是否含有中文字符

最新推荐文章于 2021-03-05 11:17:38 发布

beeworkshop

最新推荐文章于 2021-03-05 11:17:38 发布

阅读量2.1k

点赞数

分类专栏： java 文章标签： unicode java

本文链接：https://blog.csdn.net/beeworkshop/article/details/104709045

版权

java 专栏收录该内容

152 篇文章 3 订阅

订阅专栏

1. Unicode编码

Unicode编码是一种涵盖了世界上所有语言、标点等字符的编码方式，简单一点说，就是一种通用的世界码；其编码范围：U+0000 … U+10FFFF。按Unicode硬编码的区间进行划分，Unicode编码被分成若干个block ( Unicode block)；每一个Unicode编码专属于唯一的Unicode block，Unicode block之间互不重叠。从码字的本身的属性出发，Unicode编码被分成了若干script ( Unicode script)；比如，与中文相关的字符、标点的scriptHan包括block如下：

CJK Radicals Supplement
Kangxi Radicals
CJK Symbols and Punctuation中的15个字符
CJK Unified Ideographs Extension A
CJK Unified Ideographs
CJK Compatibility Ideographs
CJK Unified Ideographs Extension B
CJK Unified Ideographs Extension C
CJK Unified Ideographs Extension D
CJK Unified Ideographs Extension E
CJK Compatibility Ideographs Supplement

其中，常见的中文字符在CJK Unified Ideographs block；此外，考虑繁体字及不常见字等，CJK还有A、B、C、D、E五个extension。Basic Latin block完整地包含了ASCII码的控制字符、标点字符与英文字母字符。

2. Java的字符编码

JDK完整实现Unicode的block与script：

Char c = '☎'
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c)
Character.UnicodeScript uc = Character.UnicodeScript.of(c);

Java中的字符char内置的编码方式是UTF-16，当char强转成int类型时，其返回值是unicode编码值，只有当getbyte时才返回的是utf-8编码的byte：

import org.apache.commons.codec.binary.Hex;

String s = "\u00a0";
String.format("\\u%04x", (int) s.charAt(0)) // --> \u00a0
Hex.encodeHex(s.getBytes()) // --> c2a0

3. 判断文件中是否含有中文字符

package example;

import java.io.File;
import java.io.FileNotFoundException;
import java.util.Scanner;
import java.util.regex.Pattern;

public class CheckChineseCharacter {
	public static void main(String[] args) throws FileNotFoundException {
		Scanner sc = new Scanner(new File("f:/tmp/test.log"));
		String str = "";

		int index = 1;
		while (sc.hasNextLine()) {
			str = sc.nextLine();

			if (isChinese(str)) {
				System.out.println(str + "contain Chinese Character");
			} else {
				System.out.println("no Chinese Character in cloum " + index);
			}
			index++;
		}
	}

	// 根据Unicode编码判断中文汉字和符号
	private static boolean isChinese(char c) {
		Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
		if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
				|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
				|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
				|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
				|| ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
				|| ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
				|| ub == Character.UnicodeBlock.GENERAL_PUNCTUATION) {
			return true;
		}
		return false;
	}

	// 完整的判断中文汉字和符号
	public static boolean isChinese(String strName) {
		char[] ch = strName.toCharArray();
		for (int i = 0; i < ch.length; i++) {
			char c = ch[i];
			if (isChinese(c)) {
				return true;
			}
		}
		return false;
	}

	// 只能判断部分CJK字符（CJK统一汉字）
	public static boolean isChineseByREG(String str) {
		if (str == null) {
			return false;
		}
		Pattern pattern = Pattern.compile("[\\u4E00-\\u9FBF]+");
		return pattern.matcher(str.trim()).find();
	}

	// 只能判断部分CJK字符（CJK统一汉字）
	public static boolean isChineseByName(String str) {
		if (str == null) {
			return false;
		}
		// 大小写不同：\\p 表示包含，\\P 表示不包含
		// \\p{Cn} 的意思为 Unicode 中未被定义字符的编码，\\P{Cn} 就表示 Unicode中已经被定义字符的编码
		String reg = "\\p{InCJK Unified Ideographs}&&\\P{Cn}";
		Pattern pattern = Pattern.compile(reg);
		return pattern.matcher(str.trim()).find();
	}
}

beeworkshop

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
判断文件中是否含有中文字符

1. Unicode编码Unicode编码是一种涵盖了世界上所有语言、标点等字符的编码方式，简单一点说，就是一种通用的世界码；其编码范围：U+0000 … U+10FFFF。按Unicode硬编码的区间进行划分，Unicode编码被分成若干个block ( Unicode block)；每一个Unicode编码专属于唯一的Unicode block，Unicode block之间互不重叠。从码字...
复制链接

扫一扫