中文分词

1.判断字符中是否包含中文字符

转载源:http://lhp--2006.iteye.com/blog/1300002

可以利用Character.UnicodeBlock.=中的CJK相关字符集。

CJK的意思是“Chinese,Japanese,Korea”的简写 ,实际上就是指中日韩三国的象形文字的Unicode编码 

其中相关的一些字符集的定义:

Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS : 4E00-9FBF:CJK 统一表意符号 

Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS :F900-FAFF:CJK 兼容象形文字 

Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A :3400-4DBF:CJK 统一表意符号扩展 A 

Character.UnicodeBlock.GENERAL_PUNCTUATION :2000-206F:常用标点 

Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION :3000-303F:CJK 符号和标点 

Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS :FF00-FFEF:半角及全角形式 

(1)判断字符中是否包含中文字符(含标点符号)时,可以用 
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);  
   if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS 
     || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS 
     || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A 
     || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION 
     || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION 
     || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS){ 
    return true; 
   } 
   return false; 

(2)实际判断字符是否为中文汉字符(不含标点符号)时,可以用

Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);  
   if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS 
     || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS 
     || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A){ 
    return true; 
   } 
   return false; 



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值