中日文的代码范围

中日文的处理可以说大家可能经常遇到。

这里提供一个代码范围,供大家编写中日文处理的时候使用。

文字种类类型开始code结束code参考
全角文字CharTypeFwAll(CharTypeFwSpace)
+ (CharTypeFwAlpha)
+ (CharTypeFwNumber)
+ (CharTypeKanji)
+ (CharTypeHiragana)
+ (CharTypeFwKatakana)
半角文字CharTypeHwAll0x00200x009fLatin
0xff610xff9f← (CharTypeHwKatakana)
半角スペースCharTypeHwSpace0x00200x0020 
全角スペースCharTypeFwSpace0x30000x3000 
半角アルファベットCharTypeHwAlpha0x00410x005A(CharTypeHwAlphaU)
+ (CharTypeHwAlphaL)
0x00610x007A
半角アルファベット大文字CharTypeHwAlphaU0x00410x005A 
半角アルファベット小文字CharTypeHwAlphaL0x00610x007A 
全角アルファベットCharTypeFwAlpha0xff210xff3a 
0xff410xff5a 
半角数字CharTypeHwNumber0x00300x0039 
全角数字CharTypeFwNumber0xff100xff19 
漢字CharTypeKanji0x2e800x2effCJK Radicals Supplement
0x2f000x2fdfKangxi Radicals
0x31000x312fBopomofo
0x31a00x31bfBopomofo extended
0x34000x4dbfCJK Unified Ideographs
0x4e000x9fafCJK Unified Ideographs
0xf9000xfaffCJK Compatibility Ideographs
ひらがなCharTypeHiragana0x30400x309f 
全角カタカナCharTypeFwKatakana0x30a00x30ff 
半角カタカナCharTypeHwKatakana0xff610xff9f 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Tesseract是一个开源的光学字符识别引擎,用于将印刷体文本转换成可编辑或可搜索的电子文档。原本Tesseract只支持英文字母的识别,但是经过后续的改进,它现在也可以同时识别文和日文。 要让Tesseract能够同时识别文和日文,首先需要安装适当的语言数据文件。对于文,可以下载和安装chi_sim.traineddata文件;对于日文,可以下载和安装jpn.traineddata文件。这些训练数据包含了用于识别相应语言的字符和模式。 安装完语言数据文件后,就可以使用Tesseract进行文和日文文本的识别了。用户可以通过命令行或API调用Tesseract,并指定识别的语言。例如,使用命令行可以输入以下命令: tesseract image.png output -l chi_sim+jpn 这个命令将读取名为image.png的图片,并将识别结果保存到output.txt文件。参数-l表示指定识别的语言,chi_sim代表文,jpn代表日文。通过同时指定这两个参数,Tesseract可以同时识别文和日文。 除了使用命令行,还可以使用Tesseract的API进行日文识别。开发人员可以根据需要编写相应的代码,调用Tesseract的函数,并将待识别的图像和识别语言作为参数传递给它。然后,Tesseract会返回识别结果,供开发人员后续处理或展示。 总之,Tesseract通过安装相应的语言数据文件,可以同时识别文和日文。无论是通过命令行还是API调用,用户都可以方便地利用Tesseract进行多语言文本的光学字符识别。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值