深山里的小白羊
码龄9年
关注
提问 私信
  • 博客:1,279,683
    1,279,683
    总访问量
  • 220
    原创
  • 10,461
    排名
  • 542
    粉丝
  • 7
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2016-01-15
博客简介:

renwu

博客描述:
计算机视觉
查看详细资料
  • 原力等级
    成就
    当前等级
    7
    当前总分
    3,803
    当月
    16
个人成就
  • 获得1,779次点赞
  • 内容获得484次评论
  • 获得6,697次收藏
  • 代码片获得12,338次分享
创作历程
  • 6篇
    2024年
  • 10篇
    2023年
  • 30篇
    2022年
  • 18篇
    2021年
  • 31篇
    2020年
  • 32篇
    2019年
  • 94篇
    2018年
成就勋章
TA的专栏
  • 多模态大模型
    4篇
  • 日用小技能
    73篇
  • matlab
    5篇
  • C++基础
    16篇
  • 面经
    24篇
  • 文章
    5篇
  • 数学基本知识
    1篇
  • 指针
    10篇
  • C\C++字符串处理
    3篇
  • C语言指针
    10篇
  • C++基础
    31篇
  • STL基础使用
    8篇
  • Java之路
    5篇
  • 静动态链接库
    10篇
  • OpenCV与VS2017
    2篇
  • Git使用方法
    3篇
  • Windows与MFC编程
    5篇
  • Python
    9篇
  • 李飞飞计算机视觉教程
    2篇
  • 统计学习
    3篇
  • CUDA
    2篇
  • 算法分析设计
    6篇
  • opencv与python
    7篇
兴趣领域 设置
  • 人工智能
    opencv计算机视觉机器学习深度学习神经网络pytorch图像处理
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

176人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

北大和鹏城实验室联合推出的图像视频统一多模态大模型Chat-UniVi(CVPR 2024)

大语言模型已经在广泛的开放式任务中展示了令人印象深刻的通用能力,并且已经扩展了它们的效果,包括多模态对话。然而,现有方法在有效处理图像和视频理解方面遇到了挑战,尤其是在视觉标记数量有限的情况下。在这项工作中,我们介绍了Chat-UniVi,这是一个统一的视觉-语言模型,能够理解和参与涉及图像和视频的对话,通过统一的视觉表示。具体来说,我们采用了一组动态视觉标记(dynamic visual tokens)来统一表示图像和视频。
原创
发布博客 2024.08.07 ·
1027 阅读 ·
26 点赞 ·
0 评论 ·
29 收藏

北大和华为诺亚联合提出的一种时间感知的视频多模态大模型TimeChat(CVPR 2024)

本工作提出了TimeChat,一个专为长视频理解而设计的时间感知型多模态大型语言模型。我们的模型结合了两个关键的架构创新:(1) 一个时间戳感知的帧编码器,它将每个帧的视觉内容与时间戳绑定;(2) 一个滑动视频Q-Former,它产生不同长度的视频标记序列以适应不同时长的视频。此外,我们构建了一个包含6个任务和总共125K实例的指令调整数据集,以进一步提升TimeChat的指令跟随性能。实验结果在各种视频理解任务上,如密集字幕生成、时间定位和亮点检测,证明了TimeChat强大的零样本时间和推理能力。
原创
发布博客 2024.08.06 ·
1068 阅读 ·
16 点赞 ·
0 评论 ·
9 收藏

支持10K长视频理解的多模态大模型MovieChat(CVPR 2024)

最近,将视频基础模型和大型语言模型结合起来构建视频理解系统可以克服特定预定义视觉任务的限制。然而,现有的系统只能处理很少帧数的视频。对于长视频,计算复杂性、内存成本和长期时间连接带来了额外的挑战。利用Atkinson-Shiffrin记忆模型,将Transformers中的tokens作为记忆载体,并结合我们特别设计的记忆机制,我们提出了MovieChat来克服这些挑战。
原创
发布博客 2024.08.05 ·
988 阅读 ·
17 点赞 ·
0 评论 ·
31 收藏

清华和字节联合推出的视频理解大模型video-SALMONN(ICML 2024)

作为使用音频-视觉大型语言模型(av-LLMs)进行视频理解的一个关键但研究不足的方面,语音理解是至关重要的。本文提出了video-SALMONN,这是一个单一的端到端av-LLM,用于视频处理,它不仅能理解视觉帧序列、音频事件和音乐,还能理解语音。为了获得语音理解所需的细粒度时间信息,同时保持对其他视频元素的高效处理,本文提出了一种新颖的多分辨率因果Q-Former(MRC Q-Former)结构,以连接预训练的音频-视觉编码器和骨干大型语言模型。
原创
发布博客 2024.08.03 ·
1559 阅读 ·
13 点赞 ·
0 评论 ·
17 收藏

dockerfile之vllm大模型镜像构建

基础镜像:nvidia/cuda:11.8.0-devel-ubuntu22.04。
原创
发布博客 2024.08.02 ·
958 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

Linux常用命令

1)8090为端口,可进行自定义2)在浏览器里面输入网址:http://服务器IP:端口(8080)
原创
发布博客 2024.07.29 ·
1059 阅读 ·
21 点赞 ·
2 评论 ·
16 收藏

阿里猫头鹰多模态大模型 mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

这篇文章介绍了一项关于多模态大型语言模型 (Multi-modal Large Language Model, MLLM) 的研究工作,提出了一个名为 mPLUG-Owl2 的模型。mPLUG-Owl2 利用模态协作 (modality collaboration) 来提高在文本和多模态任务上的性能。具体来说,mPLUG-Owl2 使用了一个模块化的网络设计,其中语言解码器作为统一接口来管理不同模态的信号。它结合了共享功能模块以促进模态协作,并引入了一个模态自适应模块来保留模态特定特征。
原创
发布博客 2023.12.14 ·
2393 阅读 ·
13 点赞 ·
0 评论 ·
21 收藏

MQ-Det: Multi-modal Queried Object Detection in the Wild

这篇文章提出了MQ-Det,一种高效的架构和预训练策略,用于利用文本描述的开放集泛化能力和视觉示例的丰富描述粒度作为类别查询,即多模态查询目标检测。MQ-Det将视觉查询融入现有的仅基于语言查询的检测器。文章提出了一个即插即用的门控类可扩展感知器(GCP)模块,用于在冻结检测器上增强类别文本与类别相关的视觉信息。为了解决由于冻结检测器带来的学习惯性问题,提出了一种视觉条件的掩码语言预测策略。MQ-Det的简单而有效的架构和训练策略与大多数基于语言查询的目标检测器兼容,从而实现多种应用。
原创
发布博客 2023.12.11 ·
1806 阅读 ·
23 点赞 ·
0 评论 ·
26 收藏

Python包sklearn画ROC曲线和PR曲线

【代码】Python包sklearn画ROC曲线和PR曲线。
原创
发布博客 2023.08.16 ·
2265 阅读 ·
1 点赞 ·
1 评论 ·
3 收藏

Python查看链接文件的大小并下载文件

给定一个url,如何查看该链接是否有效?该链接文件有多大?以及如何下载该文件呢?
原创
发布博客 2023.08.16 ·
439 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ZSSeg: A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-language

最近,通过视觉语言预训练进行的开放词汇图像分类取得了令人难以置信的成就,该模型可以对任意类别进行分类,而无需看到该类别的附加注释图像。然而,目前尚不清楚如何使开放式词汇识别在更广泛的视觉问题上发挥作用。本文以开放式词汇语义分割为目标,将其建立在现成的预先训练的视觉语言模型(即CLIP)上。然而,语义分割和CLIP模型在不同的视觉粒度上执行,即语义分割在像素上执行,而CLIP在图像上执行。
原创
发布博客 2023.05.14 ·
624 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

多模态大模型的发展、挑战与应用

随着 AlexNet [1] 的出现,过去十年里深度学习得到了快速的发展,而卷积神经网络也从 AlexNet 逐步发展到了 VGG [2]、ResNet [3]、DenseNet [4]、HRNet [5] 等更深的网络结构。研究者们发现,网络越深模型的性能越好。然而,经过多年的发展,研究者们逐渐触碰到了卷积神经网络的极限,而其规模也只发展到了千万到亿的数量级,例如 ResNet-152 的参数量大约为 60 Million (M),HRNet_W64 大约为 128M。
原创
发布博客 2023.04.16 ·
9292 阅读 ·
14 点赞 ·
2 评论 ·
78 收藏

网络特征之PCA可视化-Python实现

PCA也是对网络特征可视化的一种方法,目的是对特征进行降维,然后通过图片的形式来对网络的特征提供一种解释。所以,本博客提供一个将网络特征进行PCA的可视化的代码,其原理为将C通道的特征降维到3通道,即图片的RGB通道,然后直接进行可视化。
原创
发布博客 2023.04.06 ·
1202 阅读 ·
0 点赞 ·
0 评论 ·
10 收藏

用于语义分割模型的t-SNE可视化

在之前的博客中,对t-SNE的原理进行了一个简单的介绍,也给出了一个简单的使用案例。这篇博客在之前的基础上实现在语义分割模型上的t-SNE可视化。语义分割模型中使用t-SNE的目的是,从模型的特征层面进行一定的可视化解释。比如属于同一类别的特征向量彼此聚集在一起,而属于不同类别的特征向量彼此相远。值得一提的是,分割模型中使用t-SNE较多的场景还是域自适应和域泛化分割任务上。在这些任务上,我们往往需要从特征层面上来解释网络缩小域差异的能力。
原创
发布博客 2023.04.05 ·
5218 阅读 ·
19 点赞 ·
4 评论 ·
79 收藏

Python可变对象与不可变对象的浅拷贝与深拷贝

本文主要介绍了python中容易面临的考试点和犯错点,即浅拷贝与深拷贝我们可以发现,赋值、浅拷贝和深拷贝后的变量的值是一样的,但他们的“内部”真的一样吗?本文就是回答这个问题的。
原创
发布博客 2023.03.06 ·
676 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

python logging使用教程

这些教程都说,使用logging里面的basicConfig函数就可以完成初始化,后面再使用logging.info就可以就日志保存在log文件里面去了的确这样能成功,但这样不能让保存的日志在terminal上显示我的一个需求就是我想程序日志在保存在log文件的同时还能在terminal上打印显示。
原创
发布博客 2023.02.16 ·
618 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

浅谈机器学习算法

本文不涉及复杂的机器学习算法公式,只是宏观上理解几种代表性的算法,以便应付常规的机器学习、深度学习面试回归问题:预测的值是连续的线性回归、逻辑斯特回归分类问题:预测的值是离散的,即二分类或者多分类逻辑斯特回归、KNN、SVM无监督问题:Kmeans。
原创
发布博客 2022.09.21 ·
554 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

t-SNE可视化-Python实现

t-Distributed Stochastic Neighbor Embedding (t-SNE) 是一种无监督的非线性技术,主要用于数据探索和高维数据的可视化。简单来说,t-SNE 让您对数据在高维空间中的排列方式有一种感觉或直觉。它由 Laurens van der Maatens 和 Geoffrey Hinton 于 2008 年开发。简单来说就是高维数据可视化,目的是观察高维数据的之间的分布情况。
原创
发布博客 2022.09.13 ·
19727 阅读 ·
35 点赞 ·
26 评论 ·
358 收藏

Leetcode之二分查找系列

给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。给你一个按照非递减顺序排列的整数数组 nums,和一个目标值 target。给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。给定一个 正整数 num ,编写一个函数,如果 num 是一个完全平方数,则返回 true ,否则返回 false。给你一个非负整数 x ,计算并返回 x 的 算术平方根。
原创
发布博客 2022.09.11 ·
271 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

二分法之旋转数组

例如, [0,1,2,4,5,6,7] 在下标 3 处经旋转后可能变为 [4,5,6,7,0,1,2]。例如,将数组[1,2,3,4,5,6]的前3个元素进行旋转变为[4,5,6,1,2,3],然后就是查找指定的元素,或者返回数组中最小的元素等等算法要求,也会根据难易程度,规定数组中是否存在重复元素。, a[n-1]] 旋转一次 的结果为数组 [a[n-1], a[0], a[1], a[2], …输入: nums = [1,2,3,4,5,6,7], k = 3 输出: [5,6,7,1,2,3,4]
原创
发布博客 2022.09.08 ·
491 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏
加载更多