fdffsadf-CSDN博客

原创画中画论文调研（万字长文）

为了将MLLM的生成式输出转换为可用于线上服务的概率分数，论文采用了Softmax函数对目标令牌（如“Y”和“N”）的logits值进行归一化，得到两个类别的概率。其核心思想是利用模型自身的内部状态（注意力、梯度）来定位感兴趣区域，然后对该区域进行裁剪放大，并将放大后的图像令牌与原图令牌一同输入模型，从而在不丢失全局上下文的前提下增强对细节的感知。：类似于Grad-CAM的思想，通过计算模型决策相对于输入图像像素的梯度，梯度值大的地方意味着该像素的微小变化会对决策产生巨大影响，因此这些像素是关键的。

2025-11-07 11:05:06 577

原创本地部署Qwen2/2.5-VL和书生InternVL-2/3进行批量OCR

阿里推出的Qwen2.5系列仍然是目前最火的BASE模型，相比于Qwen2系列，2.5只是使用了体量更大、质量更高的数据集继续训练得到的 Qwen2.5 系列模型。Qwen系列包括了5个尺寸的预训练和指令微调的模型，当时在开源的模型里一经推出就达到SOTA的水平。其中全系都使用了GQA(Group-Query Attention)技术，小模型使用了Tie Embedding(共享向量)技术。上下文长度都是基于32K的数据预训练然后拓展的，可以看到最长可以支持到128K。

2025-06-04 16:51:48 2114

原创 OCR开源API——MinerU批量调用下载方法

MinerU是上海AILab推出的高效PDF处理工具，可将PDF（包括加密和模糊文件）转换为markdown格式，便于后续处理或喂给AI模型。支持多语言解析，能提取文字、表格、公式和图片等内容，并通过LayoutLMv3、YOLOv8等模型实现精准识别。其API每天允许2000页优先解析，单文件不超过200MB。开发者还提供了批量处理代码，解决大规模PDF转换需求。转换结果以压缩包形式返回，包含完整的markdown文件。官网：https://mineru.net/，GitHub：https://githu

2025-05-28 16:16:02 4143 5