LLM-Data-Cleaner:用大模型批量处理数据,现支持各种大模型做OCR,支持通义千问, 月之暗面, 百度飞桨OCR, OpenAi。

项目地址:https://github.com/jackfsuia/LLM-Data-Cleaner/

用大模型来批量预处理数据,以支持科研目的。 现阶段支持OCR功能, 支持使用的大模型有 qwen(通义千问), moonshot(月之暗面), PaddleOCR(百度飞桨OCR), openai。

启动

克隆并且进入仓库

git clone https://github.com/jackfsuia/LLM-Data-Cleaner.git && cd LLM-Data-Cleaner

进入仓库然后跑下面命令启动OCR

python start_ocr.py --model MODEL --key YOUR_API_KEY --img_path /path/to/images/ --outdir /path/to/output/ --lang language

MODEL 的值可以是 “qwen”(通义千问), “moonshot”(月之暗面), “paddle”(百度飞桨OCR), “openai”. YOUR_API_KEY 是你申请的API KEY,没有的话点上面相应的模型字体链接申请, paddle不需要。 /path/to/images/ 是图片目录, 里面所有图片都会被OCR, 结果保存在 /path/to/output/ data.jsonl。 language 是识别的语言,值可以是 ch (中文), en (英文), fr (法语), german (德语), korean (韩语), japan (日语), 只有百度飞桨OCR可能会用到。

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值