vkit,一个面向计算机视觉(特别是文档图像分析与识别方向)开发者的工具包

vkit是一个专注于计算机视觉,尤其是文档图像分析与识别的开发者工具包。它提供了丰富数据增强策略,包括光度和几何畸变,支持多种标注类型的数据一致变换。此外,vkit还具备全面的数据类型封装和可视化功能,并注重代码质量,采用自动化风格检查和静态类型分析。该项目旨在帮助开发者从数据预处理中解脱,专注于更高价值的工作,如算法设计和优化,以及提供工业级的文档图像解决方案。
摘要由CSDN通过智能技术生成

传送门: https://github.com/vkit-dev/vkit

一图胜千言😄:

camera_cubic_curve.gif

 

gaussion_noise.gif

 项目简介

vkit 是一个面向计算机视觉(特别是文档图像分析与识别方向)开发者的工具包,特性如下:

  • 丰富的数据增强策略支持
    • 支持常见的光度畸变策略,如各类色彩空间操作、各类噪音操作
    • ⭐ 支持常见的几何畸变策略,如各类仿射变换、各类非线性变换(如 Similarity MLS ,基于相机模型的 3D 曲面、翻折效果等)
    • ⭐ 支持在几何畸变过程中,图片与各种标注数据类型的一致变换。例如,在旋转图片的同时,vkit 也可以同时旋转关联标注的位置信息
  • 较为全面的数据类型封装与可视化支持
    • 图片类型(基于 PIL 的封装,支持各类图片的读写)
    • 标注类型:蒙板( mask )、评分图( score map )、框( box )、多边形( polygon ) 等
  • 工业级代码质量
    • 友好的代码自动补全与类型检查支持,为开发体验保驾护航
    • 成熟的包管理与依赖管理机制
    • 自动化风格检查(基于 flake8 )与静态类型分析(基于 pyright )

注:

  • 🚧 表示施工中,未完全支持
  • ⭐ 表示本项目的亮点(其他项目没有,或是做得不够好的地方)

项目愿景

作者作为一名 CV/NLP 算法工程师,希望可以通过 vkit 这个项目,从以下几个方面给大家提供便利:

  • 将开发者从繁琐的数据治细节中解放出来,将宝贵的时间放在更有价值的工作上,如数据治理策略、算法模型设计与调优等
  • 整合常见的数据增强策略,助力文档图像分析与识别方向的科研工作、构建工业级场景数据方案(即工业界算法落地所需的那点 "secret sauce")
  • 构建工业级开源文档图像分析与识别解决方案(如扭曲复原、超分辨率、OCR 、版面分析等)

 转载自V2EX,传送门:https://www.v2ex.com/t/818997#reply3

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值