Tesseract 中文简体训练数据(chi_sim.traineddata)2022最新版
项目地址:https://gitcode.com/open-source-toolkit/99b5e
简介
本仓库提供Tesseract OCR引擎的中文简体(chi_sim)训练数据文件chi_sim.traineddata
的2022最新版本。该文件是Tesseract识别中文简体字符的关键资源,适用于需要进行中文简体文本识别的项目。
文件说明
- 文件名:
chi_sim.traineddata
- 版本: 2022最新版
- 用途: 用于Tesseract OCR引擎的中文简体字符识别
使用方法
- 下载文件: 点击仓库中的
chi_sim.traineddata
文件进行下载。 - 放置路径: 将下载的
chi_sim.traineddata
文件放置在Tesseract的tessdata
目录下。 - 配置Tesseract: 确保Tesseract配置中指定使用
chi_sim
语言包。
tesseract input.png output -l chi_sim
注意事项
- 请确保Tesseract版本与训练数据版本兼容。
- 如有其他语言需求,请参考Tesseract官方文档获取更多语言包。
贡献
欢迎提交问题和改进建议。如果您有更好的训练数据或更新版本,欢迎提交PR。
许可证
本仓库中的资源文件遵循Tesseract的开源许可证。具体信息请参考Tesseract官方文档。
希望这个资源文件能帮助您顺利进行中文简体文本识别!