- 博客(2)
- 收藏
- 关注
原创 本地部署Qwen2/2.5-VL和书生InternVL-2/3进行批量OCR
阿里推出的Qwen2.5系列仍然是目前最火的BASE模型,相比于Qwen2系列,2.5只是使用了体量更大、质量更高的数据集继续训练得到的 Qwen2.5 系列模型。Qwen系列包括了5个尺寸的预训练和指令微调的模型,当时在开源的模型里一经推出就达到SOTA的水平。其中全系都使用了GQA(Group-Query Attention)技术,小模型使用了Tie Embedding(共享向量)技术。上下文长度都是基于32K的数据预训练然后拓展的,可以看到最长可以支持到128K。
2025-06-04 16:51:48
984
原创 OCR开源API——MinerU批量调用下载方法
MinerU是上海AILab推出的高效PDF处理工具,可将PDF(包括加密和模糊文件)转换为markdown格式,便于后续处理或喂给AI模型。支持多语言解析,能提取文字、表格、公式和图片等内容,并通过LayoutLMv3、YOLOv8等模型实现精准识别。其API每天允许2000页优先解析,单文件不超过200MB。开发者还提供了批量处理代码,解决大规模PDF转换需求。转换结果以压缩包形式返回,包含完整的markdown文件。官网:https://mineru.net/,GitHub:https://githu
2025-05-28 16:16:02
566
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人