字符编码问题:ANSI、ASCII、UNICODE、UTF8、GBK及其相互转换
在使用tesseract时,不可避免地会遇到各种字符编码问题。 各种ANSI、UNICODE、UTF8、GBK总是搞不清楚,制作训练样本时刚好借机了解了下字符编码相关问题,在此记录备忘。首先介绍最熟悉的ascii码(American Standard Code for Information Interchange,美国信息互换标准代码): 使用8位二进制,0-127表示128个字符,其中...
原创
2018-08-29 19:19:29 ·
3260 阅读 ·
0 评论