1.人工获取
要求:需要能运行游戏,或者有游戏相关的文件
打开文字相关文件
1.有一些游戏可以直接打开txt文件,或者相关的数据包,用二进制文本编辑软件打开。
二进制文本编辑器打开文本
2.借助工具
(1)HAT,ppsspp工具
(2)MisakaHookFinder使用方法:使用hook,无视游戏文本字体,直接读内存拿文本
(3)agthV5.4:自动提取游戏文本,配合CP2TRAN可与翻译软件联合实现自动翻译
(4)office 2003:几乎纯手动
2.图像识别
1.调用API
(1)使用tesseract-ocr和调用百度API实现对图片文字的识别:无图片预处理,直接识别图片中的文字
(2)还是使用tesseract-ocr,用pytesseract实现image-to-string
(3)对剪切板中的图片进行识别,调用百度API:还是需要手动截取对话框还是tesseract-ocr,无预处理,直接识别
(4)使用 tesseract && JTessBoxEditor 执行手写体图片样本训练:使用tesseract,jTessBoxEditor 和 java ,需要Java虚拟机,截取的样本图片中最好不要有10个以上的字符样本。
(5)Python识别图片指定区域文字内容:
- 截取原始图上的指定图片当做模板
- 根据模板相似度去再原始图片上识别准确坐标
- 根据坐标剪切出指定位置图片,也就是所需的内容区域
- 对指定位置图片进行ocr识别
(6)利用baidu的api和python的GUI实现通用文字识别功能
(7)tesseract-ocr和百度API
API总结:
- Pillow ,pytesseract,tesseract-ocr
优点:本地识别图片
缺点:占用CPU,准确率低 - baiduOCR api
优点:快
缺点:收费
百度文字识别费用信息
2.形态学操作法
具体方法见手把手教你深度学习文字识别(文字检测篇:基于MSER, CTPN, SegLink, EAST等方法)
主要思想为:通过利用计算机视觉中的图像形态学操作,包括膨胀、腐蚀基本操作,即可实现简单场景的文字检测,例如检测屏幕截图中的文字区域位置。