汉字 Unicode编码范围及 计算文本的中文英文字数

汉字Unicode编码范围

Unicode编码范围
u4e00~u9fff

  • U+4E00~U+9FA5 是最常用的范围,即名为:CJK Unified Ideographs 的区块,
  • U+9FA6~U+9FFF 之间的字符还属于空码,暂时还未定义,但不能保证以后不会被定义
def is_zh(char):
    """

    :param char:  单个字符
    :return:
    """
    
    if u'\u4e00' <= char <= u'\u9fff':
        return True
    return False

中英文字数统计

在Word文档中, 通过审阅 --> 统计字数可以计算出 字数, 中文字数, 非中文字数等,现在就用Python来实现。
示例:你好,World 4

# -*- coding: utf-8 -*-
import re

def strQ2B(ustring):
	# 字符串全角转半角
    rstring = ""
    for uchar in ustring:
        inside_code=ord(uchar)
        if inside_code == 12288:    # 全角空格直接转换
            inside_code = 32
        elif (inside_code >= 65281 and inside_code <= 65374): # 全角字符(除空格)根据关系转化
            inside_code -= 65248
        rstring += chr(inside_code)
    return rstring


def querySimpleProcess(ss):
	# query预处理,排除中英文数字以外的字符,全部转为小写
    s1=strQ2B(ss)
    s2=re.sub(r"(?![\u4e00-\u9fff]|[0-9a-zA-Z])."," ",s1) 
    s3=re.sub(r"\s+"," ",s2)
    return s3.strip().lower()


# 判断是否包含中文
def check_contain_chinese(check_str):
    for ch in check_str:
        if u'\u4e00' <= ch <= u'\u9fff':
            return True
    return False


# 判断是否包含英文
def check_contain_english(check_str):
    for ch in check_str:
        if u'a' <= ch <= u'z' or u'A' <= ch <= u'Z':
            return True
    return False


# 删除字符串中的英文字母,以便统计字符数之用
def delete_letters(ss):
    rs = re.sub(r"[a-zA-Z]+","",ss)
    return rs


# 先行空格分割,得到列表,再行处理列表中的每个元素
# 例:Smart校服广告曲=6、Disrespectful Breakup=2
# 异常:C哩C哩=3 ###处理不了
# 如果元素不包含中文,则该元素长度记为:1+数字个数
# 如果元素不包含英文,则该元素长度记为:中文字符数+数字个数,可以直接使用len()方法
# 如果元素同时包含中英文,则该元素长度记为:中文字符数+数字个数+1
def countCharacters(inputStr):
    tmpStr = querySimpleProcess(inputStr)
    str2list = tmpStr.strip().split(" ")
    if len(str2list) > 0:
        charsNum = 0  # 初始化字符计数
        for elem in str2list:
            chineseFlag = check_contain_chinese(elem)
            englishFlag = check_contain_english(elem)
            if englishFlag == False:  # 不包含英文
                charsNum = charsNum + len(elem)
                continue
            else:  # 包含英文
                elem = delete_letters(elem)
                charsNum = charsNum + 1 + len(elem)
        return charsNum
    return 0

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 常用汉字Unicode编码表是指将常用的中文汉字与其对应的Unicode字符编码进行对应的表格。Unicode是一种国际编码标准,它为世界上几乎所有的字符都分配了一个唯一的编码值,使用十六进制表示。 在汉字Unicode编码表中,每个汉字都有一个独特的编码值,用于表示该汉字计算机中的存储和传输。这些编码值通常以“U+”开头,后面跟着一个表示十六进制数字的编码。 常用汉字Unicode编码表包含了常见的中文字符,例如“你”、“好”、“我”等。这些汉字都有对应的Unicode编码,可以通过查表找到其对应的编码值。比如,“你”的Unicode编码是U+4F60,“好”的Unicode编码是U+597D,“我”的Unicode编码是U+6211。 使用Unicode编码表可以帮助我们在计算机中准确地表示和处理汉字。无论是在操作系统、软件应用程序还是网页设计中,对于汉字的显示和输入,都需要使用Unicode编码来进行处理。这样可以确保不同计算机和操作系统之间的兼容性,使汉字能够在各种环境下正确显示和输入。 总之,常用汉字Unicode编码表是一种将汉字和其对应的Unicode编码进行映射的表格,它在计算机系统中起着重要的作用,能够准确表示和处理汉字。 ### 回答2: 常用汉字Unicode编码表是一个记录了汉字字符以及其对应的Unicode编码的表格。Unicode编码是一种国际标准,用于表示世界上所有字符的唯一编号。 常用汉字Unicode编码表包含了汉字的繁体、简体以及其它一些特殊形式的字符。它的设计目的是为了方便计算机系统在全球范围内处理和显示汉字字符。 每个汉字字符在Unicode编码表中都有一个唯一的编号,这个编号由一系列十六进制数字组成。例如,汉字“中”的Unicode编码是U+4E2D,其中“U+”表示这是一个Unicode编码,而后面的数字“4E2D”就是这个字符的具体编号。 常用汉字Unicode编码表的目的是为了提供一种标准的方法来表示和处理汉字字符。它使得不同计算机系统、软件以及互联网上的各种平台能够准确地识别和显示汉字字符。 在常用汉字Unicode编码表中,还会记录一些与汉字字符相关的信息,比如其拼音、部首和笔画数等。这些信息可以提供给搜索引擎、输入法和字典等工具使用,以便用户更方便地查找和输入汉字。 总的来说,常用汉字Unicode编码表是一种标准化的汉字字符编码系统,它极大地方便了计算机处理和显示汉字字符的能力,使得汉字在全球范围内的使用变得更加便利。 ### 回答3: 常用汉字Unicode编码表是一个包含了常用汉字计算机中的编码方式的参考表格。Unicode是一种全球性的字符编码标准,它为世界上几乎所有的字符赋予了一个唯一的编码值。这个编码标准包括了各种文字、符号和表情等。 在汉字Unicode编码表中,每个汉字都有一个唯一的编码值。这个编码值通常以十六进制的形式表示。常用汉字编码值集中在U+4E00到U+9FFF之间,这个范围被称为汉字的基本区。编码表按照汉字的发音、结构等特征进行了分类和排序,以方便用户查找和使用。 使用Unicode编码表,可以通过查找汉字编码值来获得汉字的具体信息。例如,可以根据一个汉字编码值确定它的发音、部首、笔划数以及其他相关的信息。这在计算机编程、文字处理以及信息交流等领域中非常重要。 汉字Unicode编码表不仅包含了常用汉字,还包括了罕见或不常用的汉字、繁体汉字等。虽然常用汉字编码表已经相对稳定,但是随着社会的发展和语言的演变,Unicode编码表也会不断更新和完善,以满足使用者的需求。 总之,常用汉字Unicode编码表是一个十分重要的工具,它为计算机处理汉字提供了标准化的方式,同时也方便了用户在各种应用中使用和查询汉字的信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值