CVHub
码龄2年
关注
提问 私信
  • 博客:315,085
    问答:16
    315,101
    总访问量
  • 272
    原创
  • 8,465
    排名
  • 31,424
    粉丝
  • 2,408
    铁粉
  • 学习成就

个人简介:专注多模态视觉语言AI全栈知识分享,提供原创、多领域、有深度的前沿AI论文解读与工业成熟解决方案

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 目前就职: 北京字节跳动科技有限公司
  • 加入CSDN时间: 2023-01-13
博客简介:

专注计算机视觉全栈知识分享

博客描述:
提供原创、多领域、有深度的前沿AI论文解读与工业成熟解决方案!
查看详细资料
  • 原力等级
    成就
    当前等级
    7
    当前总分
    3,893
    当月
    65
个人成就
  • 获得888次点赞
  • 内容获得175次评论
  • 获得3,067次收藏
  • 代码片获得3,798次分享
创作历程
  • 36篇
    2024年
  • 240篇
    2023年
成就勋章
TA的专栏
  • OCR
    2篇
  • 分类/识别/检测/分割
    73篇
  • 网络架构
    28篇
  • 视觉语言模型
    1篇
  • 扩散模型
    3篇
  • Segment Anything Model
    6篇
  • 实战教程
    11篇
  • 分享系列
    16篇
  • 多模态学习
    16篇
  • 具身智能
    4篇
  • Mamba
    4篇
  • 技术总结
    12篇
  • 底层视觉
    12篇
  • 蒸馏
    4篇
  • Agent
    1篇
  • 大语言模型
    9篇
  • 3D视觉
    39篇
  • 生成式AI
    21篇
  • 半监督/弱监督/无监督学习
    16篇
  • 即插即用
    5篇
  • GPT
    4篇
  • Tricks
    4篇
  • 对抗攻击
    1篇
  • NAS
    1篇
  • 常用代码片段总结
    2篇
  • 模型部署
    1篇
  • 经验分享
    1篇
  • 日常Bug修复
    2篇
  • 损失函数
    2篇
TA的推广
兴趣领域 设置
  • 人工智能
    计算机视觉机器学习深度学习神经网络图像处理
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

NeurIPS 2024 | TextHarmony: 基于统一架构的视觉文本理解与生成模型

TextHarmony 作为 OCR 领域的多功能多模态生成模型,成功统一了视觉文本理解和生成任务。通过创新的 Slide-LoRA 技术,它有效解决了多模态生成中的模态不一致问题,在单一模型中实现了视觉与语言模态的和谐统一。TextHarmony 在视觉文字感知、理解、生成和编辑方面展现出卓越性能,为复杂的视觉文本交互任务开辟了新的可能性。这项研究不仅推动了 OCR 技术的进步,也为人工智能在理解和创造方面的发展提供了重要参考。
原创
发布博客 2024.10.27 ·
882 阅读 ·
25 点赞 ·
0 评论 ·
28 收藏

上海AI实验室推出DocLayout-YOLO: 速度精度绝佳的文档布局分析模型

总的来说,DocLayout-YOLO 不仅在速度上与单模态方法YOLOv10相匹配,而且在准确性上超越了所有现有方法,包括单模态和多模态方法。这表明DocLayout-YOLO在文档布局分析领域具有重要的应用潜力。最后,值得称赞的是,这项工作不仅在技术上取得了突破,作者们还提供了代码、数据和模型的开源链接,为文档布局分析领域的研究和实践提供了宝贵的资源,这使得研究者和开发者能够进一步探索和应用DocLayout-YOLO。欢迎关注 CVHub!持续为您更新高质量的AI文章解读!
原创
发布博客 2024.10.25 ·
1135 阅读 ·
20 点赞 ·
0 评论 ·
17 收藏

深度学习中如何为骨干网络选取“最佳“优化器?

本文探讨了计算机视觉中骨干网络设计和优化器选择之间的相互作用。我们揭示了骨干-优化器耦合偏差(BOCB)现象及其对视觉骨干网络潜在的限制,例如在下游任务中额外的微调时间和努力。我们还发现了不同网络设计和BOCB背后的基本原理,从而为未来的视觉骨干网络设计提供了指导。同时,基准测试结果和发布的代码为用户友好的部署和评估提供了参考。总体而言,我们旨在激励计算机视觉社区重新思考骨干网络和优化器之间的关系,在未来的研究中考虑BOCB,从而为更系统性的未来进步做出贡献。
原创
发布博客 2024.10.17 ·
1020 阅读 ·
7 点赞 ·
0 评论 ·
29 收藏

微信团队发布全新多模态大模型 POINTS: 简单高效又不失性能

POINTS 是微信团队开发的先进视觉语言模型,融合了多项创新技术。它采用保持纵横比的高分辨率动态显示(CATTY)、CapFusion 技术整合图像描述、双视觉编码器架构,并引入了基于 perplexity 的预训练数据筛选策略。POINTS 还利用 Individual Select 方法选择指令调优数据,并创新性地应用 Model Soup 技术来融合不同数据集训练的模型。
原创
发布博客 2024.10.16 ·
985 阅读 ·
29 点赞 ·
0 评论 ·
26 收藏

仅需一行代码!上交大联合腾讯优图提出 SaRA: 让‘懒惰‘参数重获新生的微调魔法

本文提出了 SaRA,一种新颖的参数高效微调方法,该方法充分利用了预训练模型中绝对值最小的无效参数。作者提出了一种基于核范数的低秩损失,以约束学习到的稀疏矩阵的秩,从而避免模型过拟合。此外,设计了一种渐进式参数调整策略,进一步提高了微调参数的有效性。最后,提出了一种新型的非结构化反向传播方法,大大节省了参数微调过程中的内存开销。大量实验证明了本文方法的有效性,它在保持预训练模型的先验信息的同时,实现了最佳的拟合能力。
原创
发布博客 2024.09.30 ·
704 阅读 ·
7 点赞 ·
0 评论 ·
16 收藏

Ultrylytics 官宣: YOLO11 全新发布!

总的来说,本次更新的 YOLO11 模型是基于 YOLOv8 开发的,网络结构方面整体变化不大,采用 C3K2 替换掉了原先的 C2 和 C3 块,并新增了一个类似于自注意力的特征增强模块——C2PSA。检测头部分延续了 YOLOv8,因此后处理解析步骤基本相同。根据社区的反馈,精度方面喜忧参半,欢迎添加WX: cv_huber,备注YOLO11一同加入 YOLO 学习讨论小组分享你的观点和看法吧~
原创
发布博客 2024.09.30 ·
1471 阅读 ·
20 点赞 ·
0 评论 ·
18 收藏

Segment Anything 2 (SAM2) in X-AnyLabeling: 构建快速精准的图像和视频标注对象分割工具

Segment Anything 2 (SAM2) in X-AnyLabeling: 构建快速精准的图像和视频标注对象分割工具
原创
发布博客 2024.09.07 ·
2074 阅读 ·
17 点赞 ·
0 评论 ·
32 收藏

打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!

X-AnyLabeling 是一款基于AI推理引擎和丰富功能特性于一体的强大辅助标注工具,其专注于实际应用,致力于为图像数据工程师提供工业级的一站式解决方案,可自动快速进行各种复杂任务的标定。
原创
发布博客 2024.08.27 ·
1341 阅读 ·
26 点赞 ·
1 评论 ·
24 收藏

无关技术细节,聊聊这两年从事大语言模型的工作感悟

转载
发布博客 2024.08.23 ·
99 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MICCAI STS 2024牙齿半监督分割挑战赛

在这里根据综述文献STS MICCAI 2023 Challenge: Grand challenge on 2D and 3D semi-supervised tooth segmentation给大家介绍一下去年STS 2023牙齿分割挑战赛的一些优秀的解决方案。具体来说,去年有434支团队注册了挑战,其中64支团队在最后阶段提交了有效结果。在满足进入最终阶段的所有标准的方法中,所有方法都基于深度学习方法进行,其中,伪标签生成方案是最常用的半监督策略——超过一半的团队采用。
原创
发布博客 2024.07.31 ·
692 阅读 ·
5 点赞 ·
0 评论 ·
10 收藏

推动虚拟试衣模型真正走向落地与应用!| 中山大学联合 Pixocia 提出 CatVTON: 一种更加轻量化的扩散模型架构

CatVTON 重新思考和设计了基于扩散模型的虚拟试穿框架,将多任务、多品类的虚拟试衣集成到同一模型中,以轻量化的框架和参数高效的训练策略实现了 SOTA 的试穿效果,降低了模型的训练、推理计算需求,推动了虚拟试衣模型走向落地与应用。如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。
原创
发布博客 2024.07.31 ·
607 阅读 ·
4 点赞 ·
0 评论 ·
8 收藏

大连理工卢湖川团队新作 | Spider: 开启图像统一分割新范式

References如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。
原创
发布博客 2024.07.31 ·
441 阅读 ·
5 点赞 ·
0 评论 ·
8 收藏

大连理工卢湖川团队新作 | Spider: 开启图像统一分割新范式

References如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。
原创
发布博客 2024.06.20 ·
1070 阅读 ·
7 点赞 ·
0 评论 ·
11 收藏

深度剖析现阶段的多模态大模型做不了医疗

多模态大模型是指能够同时处理和整合来自多种输入形式(如文本、图像、音频等)的大型机器学习模型。这些模型通过理解和生成多种形式的数据,能够执行跨模态任务,例如从图像生成描述性文本,或根据文本生成相关的图像。这类模型结合了视觉和语言理解能力,使得它们能够在多种应用场景中发挥作用,从而突破单一模态的限制,提供更加丰富和交互性强的用户体验。文章有点长,简单帮大家总结下:首先,对于微小目标识别,医疗影像中的微小病灶(如肺部结节)在图像中占比极小,要求模型具备极高的分辨能力;
转载
发布博客 2024.06.20 ·
296 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

YOLOv10 正式发布!原理、部署、应用一站式齐全

遗憾的是,无论是 anchor-based 的“框分配”策略还是 anchor-free 的“点分配”策略,其始终会面临一个 many-to-one 的窘境,即对于一个 GT 框来说,会存在多个正样本与之对应。YOLOv10 作为一款实时端到端目标检测模型,其通过创新的双标签分配策略和架构改进,在保持高速检测的同时显著提升了准确性和效率,提供了多个模型规模以适应不同应用场景,并通过支持ONNX和TensorRT等格式的导出,便于在多种平台上部署和推理,值得尝试。
原创
发布博客 2024.05.25 ·
19698 阅读 ·
24 点赞 ·
4 评论 ·
86 收藏

TextCoT:多模态思维链提升文字密集图像理解

TextCoT 为文字密集的图像理解领域提供了一种新的视角和方法。通过利用LMMs的描述和定位能力,TextCoT 能够有效提取图像中的全局和局部视觉信息,从而提高问答任务的准确性。这项工作不仅展示了 TextCoT 的强大性能,也为未来研究提供了新的方向,即如何进一步发掘和利用 LMMs 在多模态理解方面的潜力。
原创
发布博客 2024.05.25 ·
428 阅读 ·
5 点赞 ·
0 评论 ·
11 收藏

TextCoT:多模态思维链提升文字密集图像理解

TextCoT 为文字密集的图像理解领域提供了一种新的视角和方法。通过利用LMMs的描述和定位能力,TextCoT 能够有效提取图像中的全局和局部视觉信息,从而提高问答任务的准确性。这项工作不仅展示了 TextCoT 的强大性能,也为未来研究提供了新的方向,即如何进一步发掘和利用 LMMs 在多模态理解方面的潜力。
原创
发布博客 2024.04.18 ·
937 阅读 ·
12 点赞 ·
0 评论 ·
13 收藏

精度最高降幅60%!SOTA只是假象?CVPR2024 Highlight为你揭示CLIP和LLaVA-Next等模型“骗局”

ImageNet-D数据集包含来自113个数据类别的4835张图像,有着不同的背景(background)、纹理(texture)和材料(material)组成. 和以往的合成数据集相比,ImageNet-D图像质量更高,且生成更为灵活可控。实验结果表明,ImageNet-D数据集有效地降低state-of-art模型的测试准确率,降低幅度最高达60%,包括CLIP,MiniGPT-4和LLaVa-NeXT等。ImageNet-D从一个崭新的角度揭露了当前大模型的错误,有利于启发模型的进一步迭代。
原创
发布博客 2024.04.16 ·
855 阅读 ·
18 点赞 ·
0 评论 ·
10 收藏

CVPR 24-UG2 无人机多模态检测与追踪挑战赛正式开启!

参赛者需要根据传感器数据序列给出特定时间戳上的无人机位置数据并提交到赛事系统中,根据分类和预测精度得出最终的得分。比赛主要分为两个阶段 算法开发阶段(Dry-run)和最终验证阶段(Testing)。在算法开发阶段(Dry-run)挑战赛提供一个有标签训练集和一个无标签的开发用数据集,参赛者需要在这一阶段完成开发模型,测试结果提交格式等任务。在最终验证阶段(Testing),挑战赛会发布一个最终数据集以验证参赛者的算法性能。
原创
发布博客 2024.04.16 ·
1266 阅读 ·
13 点赞 ·
0 评论 ·
16 收藏

具身智能之RT-H

例如,如果机器人在拿起一个物体时动作不正确,人类可以输入新的指令,如“向左移动手臂”或“更慢地旋转手腕”,以纠正机器人的动作。RT-H在高层次任务描述(task descriptions)和低层次动作(action)之间引入一个中间层,即语言动作(language motions),这些语言动作是用更细粒度的短语来描述机器人的低级动作,例如“向前移动手臂”或“向右旋转手臂”。RT-H模型不仅可以响应人类的纠正,还可以从这些纠正中学习,以改进其未来的行为。当人类提供纠正时,这些纠正被视为额外的训练数据。
原创
发布博客 2024.04.16 ·
613 阅读 ·
4 点赞 ·
0 评论 ·
8 收藏
加载更多