vue中使用tesseract实现OCR/文字识别(识别图片中的文字)


tesseract官网地址:https://tesseract.projectnaptha.com/

github:https://github.com/naptha/tesseract.js#tesseractjs

tesseract在线使用

npm安装依赖:

npm install tesseract.js

页面引入:

import Tesseract from 'tesseract.js'

js方法:

url : 图像地址
language: 语种 参数 chi_sim eng jpn

// recognize 第一个参数:图像,第二个:语种
Tesseract.recognize(
  url,
 language,
 //  { logger: m => console.log(m) }
).then((d) => {
  console.log(d.data.text);
  ocrStr.value = d.data.text
})

tesseract离线使用

克隆仓库

https://gitcode.net/mirrors/jeromewu/tesseract.js-offline.git

执行 npm install

拷贝 worker.min.js和tesseract-core.wasm.js

在public文件夹下新建tesseract,将刚刚克隆的项目里面的node_modules/tesseract.js/dist/worker.min.js和node_modules/tesseract.js-core/tesseract-core.wasm.js两个js文件拷贝到tesseract文件夹下

index.html 引入tesseract.min.js

<script src="/tesseract/tesseract.min.js"></script>

下载语言包

下载地址: https://github.com/naptha/tessdata/tree/gh-pages/4.0.0
可根据自行选择版本下载
如 https://github.com/naptha/tessdata/blob/gh-pages/4.0.0/chi_sim.traineddata.gz
https://github.com/naptha/tessdata/blob/gh-pages/4.0.0/eng.traineddata.gz

下载完成后,拷贝到tesseract/lang-data文件夹下

文件不上传文件服务器

          <input type="file" name="file" accept="image/png, image/jpeg, image/jpg" @change="change" style="margin-top: 30px"/>

可使用URL.createObjectURL将上传的文件生成临时url

    change() {
      //生成的临时url
      const url = URL.createObjectURL(document.querySelector('input[type=file]').files[0]);
      this.recognize(url);
    },

js方法

<script >
//为了在普通函数和ascyn函数中都能调用
let worker; 
export default {
  name: "index",
  data(){
    return {}
  },
  methods: {
  //url 图片地址
    async recognize(url) {
      let that = this //避免this指向问题
      worker = Tesseract.createWorker({
        /*        logger: m => {
                  that.progress = m.progress
                  that.status = m.status
                },*/
        //配置本地资源路径,语言包的实际位置是通过langPath+'/'+lang+'.traineddata.gz'得到的,所以不要改语言包文件名
        workerPath: '/tesseract/worker.min.js',
        corePath: '/tesseract/tesseract-core.wasm.js',
        langPath: '/tesseract/lang-data'
      })
      //调用async recognizeOcr函数进行识别
      let data = await this.recognizeOcr(url);
      console.log(data.data.text);
    },
    //url 图片地址
    async recognizeOcr(url){
      await worker.load();
      //可以通过'+'设置多个语言
      await worker.loadLanguage('chi_sim+eng+jpn'); 
      await worker.initialize('chi_sim+eng+jpn');
      const data = await worker.recognize(url);
      return data;
    }
  }
}
</script>

优化

tesseract.j、lang-data、tesseract.js-core文件较大,以后项目npm run build和部署到服务器时都会比较慢,故建议有条件的同学放到cdn托管。

  • 4
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
VueScan可以利用以下设备的高级硬件能力:尼康 LS-30/LS-2000,美能达 Dimage ScanDual,惠普PhotoSmart,尼康 LS-20/LS-1000,宝丽来 SprintScan 35/LE/ES/+,和佳能 CanoScan2700F底片扫描仪。利用 VueScan,你能够比平板扫描仪扫描照片更多地控制最终的图像。 VueScan 的特性包括:支持 200 种以上的底片类型,在剪取图像时制成关联单,复杂的白色平衡算法,用于检查物体表面暇疵的红外线底片扫描,成批扫描,自动剪取图像,等等。 VueScan是著名的第三方底片扫描仪驱动程序,支持市场可见绝大多数型号的底片扫描仪,可以更为灵活地控制扫描过程,更深入地发掘硬件潜力,获取色彩 完美的高质量扫描结果。VueScan支持200种以上的底片类型,在剪取图像时制成关联单,复杂的白色平衡算法,用于检查物体表面暇疵的红外线底片扫 描,成批扫描,自动剪取图像等等。 随着软件的走红,Vuescan不断升级,功能不断完善,应用界面也越来越美观实用,最后,很多扫描仪厂商干脆将它作为自己扫描仪的配套驱动程序。 随着数码相机的流行,RAW成为很多喜欢的文件格式,Vuescan也与时俱进,增加了RAW文件转换功能,凭借其优秀的图像算法,在RAW文件转换方 面,vuescan也独树一帜。如今,Vuescan已经发展成为一款多功能的图像处理软件,支持多达750款各类扫描仪和200多款能记录RAW文件的 数码相机,并支持Adobe的DNG数字底片格式! 功能: 支持1200种扫描仪 运行在Mac OS X,Windows和Linux 提高您的工作效率和质量的扫描 创建原始扫描文件 ICC配置文件和色彩空间 IT8色彩校正 注册信息: E-mail Address:wayne@dahaoren.com Serial Number:108824250 Customer Number:1560318833 或者(OR) E-mail Address:www@yyyww.com Serial Number:115973638 Customer Number:1608838852

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值