自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 本地部署Qwen2/2.5-VL和书生InternVL-2/3进行批量OCR

阿里推出的Qwen2.5系列仍然是目前最火的BASE模型,相比于Qwen2系列,2.5只是使用了体量更大、质量更高的数据集继续训练得到的 Qwen2.5 系列模型。Qwen系列包括了5个尺寸的预训练和指令微调的模型,当时在开源的模型里一经推出就达到SOTA的水平。其中全系都使用了GQA(Group-Query Attention)技术,小模型使用了Tie Embedding(共享向量)技术。上下文长度都是基于32K的数据预训练然后拓展的,可以看到最长可以支持到128K。

2025-06-04 16:51:48 984

原创 OCR开源API——MinerU批量调用下载方法

MinerU是上海AILab推出的高效PDF处理工具,可将PDF(包括加密和模糊文件)转换为markdown格式,便于后续处理或喂给AI模型。支持多语言解析,能提取文字、表格、公式和图片等内容,并通过LayoutLMv3、YOLOv8等模型实现精准识别。其API每天允许2000页优先解析,单文件不超过200MB。开发者还提供了批量处理代码,解决大规模PDF转换需求。转换结果以压缩包形式返回,包含完整的markdown文件。官网:https://mineru.net/,GitHub:https://githu

2025-05-28 16:16:02 566 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除