计算机视觉
文章平均质量分 87
AI每天一点点
可以咨寻【AI交叉学科、SCI、CCF-ABC、期刊、会议、本硕博论文、在职论文指导、Kaggle带队拿牌、 润色发刊等 】白嫖人工智能学习资源包
展开
-
仅几秒,准确推断蛋白动力学信息,山大、北理工等AI模型RMSF-net登Nature子刊,准确预测蛋白质结构灵活性
该研究团队提出了一种用于低温电子显微镜密度图的神经网络模型 RMSF-net,该模型充分利用低温电子显微镜密度和 PDB 模型信息,可以在几秒钟内准确推断出蛋白质的动力学信息。RMSF 是一种广泛使用的测量方法,用于评估 MD 分析中分子结构的灵活性。该方法的主要目的是预测蛋白质内局部结构(残基、原子)的 RMSF。图示:RMSF-net。(来源:论文)除了低温电子显微镜图之外,RMSF-net 还利用 PDB 模型作为额外输入,来产生非常接近 MD 模拟结果的 RMSF 预测。原创 2024-07-05 16:23:11 · 929 阅读 · 0 评论 -
大语言模型助力基于CLIP的分布外检测任务
在这项工作中,我们提出了一种名为Envisioning Outlier Exposure (EOE) 的分布外检测方法,该方法利用通过利用大型语言模型 (LLM) 的专家知识和推理能力来想象潜在的异常值暴露,从而提升VLMs的OOD检测性能 (如图1 (c) 所示),同时无需访问任何实际的 OOD 数据。实验表明,我们设计的得分函数和基于视觉相似性原则设计的LLM prompt获得了最优的性能,并且我们的方法在不同的LLM和不同长度的潜在OOD 类标签数量上都获得了优异的表现。原创 2024-07-04 15:52:28 · 735 阅读 · 0 评论 -
AI成像新时代,视野扩大271倍,上海理工大学开发超快卷积光学神经网络《使用超快卷积光学神经网络的无内存散射成像》
然而,将卷积网络运算的理念应用到光学领域,面临着将电子信号转换为光信号的挑战。该研究的另一大亮点是其多任务处理能力,只需简单调整网络结构,同一个卷积 ONN 就能同时执行多种不同的图像处理任务,如分类、重建等,这在光学人工智能领域尚属首次。与现有的基于波长或偏振复用的 ONN 进行多任务推理相比,所提出的可训练卷积 ONN 可以在多任务模式下运行,并区分不同类别的独立无记忆散斑图案。研究团队巧妙地设计了一种全光学解决方案,直接在光域进行卷积网络运算,省去了繁琐的信号转换过程,实现了真正的光学计算速度。原创 2024-07-03 15:30:41 · 1035 阅读 · 0 评论 -
全面解读视觉大模型-视觉Transformer原理、应用、优缺点以及未来发展趋势
视觉大模型,也称为视觉Transformer,是近年来计算机视觉领域的一大突破。这种模型在图像识别、目标检测、语义分割等任务中表现出色,成为深度学习领域的研究热点。本文将通过万字长文,对视觉大模型进行全面解读,包括其原理、应用、优缺点以及未来发展趋势。原创 2024-07-03 13:43:16 · 904 阅读 · 0 评论 -
如何入坑 Diffusion方向?写出论文
1、Ho et al.写了一篇Denoising Diffusion Probabilistic Model(DDPM),搞CV一般搞懂DDPM就差不多。这篇的想法并不是作者原创,而是来自于2015年斯坦福一个学物理的博士后(Sohl-Dickstein et al.),最早提出diffusion的文章。DDPM的贡献在于把diffusion调出较好效果。一作是加州伯克利的Johnathan Ho,是伯克利明星老师Pieter Abbeel的学生。原创 2024-06-22 16:54:39 · 817 阅读 · 0 评论 -
2024年的顶级计算机视觉机遇和挑战
计算机视觉(CV)是人工智能的一部分,它使计算机能够分析和理解视觉信息,包括图像和视频。它超越了简单的“看到”图像,而是教会计算机根据它们看到的东西做出决定。人工智能驱动的计算机视觉市场正经历快速增长,从2023年的220亿美元增长到预期的2023年的220亿美元500亿美元到2030年,2024-2030年CAGR将达到21.4%。这项技术模仿人类的视觉,但使用复杂的算法、大量数据和相机工作得更快。计算机视觉系统可以快速分析大面积上的数千种物品,或者检测人眼看不见的微小缺陷。原创 2024-06-21 13:54:04 · 730 阅读 · 0 评论 -
计算机视觉方向的博士,如何做到一直follow新技术?
顺便说一句,我们要正视Transformer模型在统一图像和文本方面的潜力,所以CLIP这篇文章,虽然方法非常简单,还是开创了一个新的方向,缓慢、中等程度地,更新了我的知识库。每天扫arXiv列表的时候,完全可以跳过其中80%以上的论文,只去读自己感兴趣的论文,接受漏掉一些“可能有用”的论文:如果这些论文真的很重要,你迟早会在其他推送里看到它。和上面的顺序相反,下面的建议是从小到大的。对于自己研究的方向,要了解它的完整发展脉络,包括当前通用的算法是如何一步步发展出来的,历史上有哪些成功、失败的尝试,等等。原创 2024-06-20 16:57:40 · 740 阅读 · 0 评论 -
清华等高校推出首个开源大模型水印工具包MarkLLM,支持近10种最新水印算法
本⽂介绍由清华等⾼校联合推出的⾸个开源的⼤模型⽔印⼯具包 MarkLLM。MarkLLM 提供了统⼀的⼤模型⽔印算法实现框架、直观的⽔印算法机制可视化⽅案以及系统性的评估模块,旨在⽀持研究⼈员⽅便地实验、理解和评估最新的⽔印技术进展。通过 MarkLLM,作者期望在给研究者提供便利的同时加深公众对⼤模型⽔印技术的认知,推动该领域的共识形成,进⽽促进相关研究的发展和推⼴应⽤。论⽂名称:MarkLLM: An Open-Source Toolkit for LLM Watermarking。原创 2024-06-19 14:03:11 · 687 阅读 · 0 评论 -
ACL 2024|PsySafe:跨学科视角下的Agent系统安全性研究
转载自:机器之心奥本海默曾在新墨西哥州执行曼哈顿计划,只为拯救世界。并留下了一句:「他们不会对其敬畏,直至理解;而理解,唯有亲身体验之后。隐含在这个荒漠里的小镇中的社会规则,在某种意义上同样适用于AI智能体。随着大型语言模型(Large Language Model)的迅速发展,人们对其的期待已不仅仅是将其作为一种工具使用。现在,人们希望它们不仅具备情感,还能进行观察、反思和规划,真正成为一个智能体(AI Agent)。原创 2024-06-14 14:06:35 · 852 阅读 · 0 评论 -
再战Transformer!原作者带队Mamba2杀疯了,新架构训练效率大幅提升
Mamba-2的发布代表了深度学习模型架构的一次重大进步,它的出现可能会对现有的Transformer模型产生挑战,并为未来的AI研究提供新的可能性。总体而言,本文提出了 SSD(state space duality)框架,基于此,研究者设计了一个新的体系架构 Mamba-2,其核心层是对 Mamba 的选择性 SSM 的改进,速度提高了 2-8 倍,同时在语言建模方面继续与 Transformers 竞争。在需要更大状态容量的任务上,例如 MQAR 任务,它比 Mamba-1 有了显著的改进。原创 2024-06-07 15:01:40 · 925 阅读 · 0 评论 -
22种即插即用的涨点模块汇总,含注意力机制、卷积变体、Transformer变体
对CIFAR100图像分类和MS COCO与VisDrone2019数据集上的目标检测进行的实验验证了EMA的有效性,它在不增加网络复杂度的前提下,超越了多个现有的注意力机制。通过分析影响性能的关键因素,引入了一个简单而有效的映射函数和一个高效的等级恢复模块,以增强self-attention的表达性,同时保持较低的计算复杂度。简述:本文提出了一种称为混合注意力Transformer(HAT)的新型网络架构,它融合了通道注意力和窗口自注意力机制的长处,提高了模型处理全局和局部信息的能力。原创 2024-06-01 14:27:09 · 921 阅读 · 0 评论 -
ICLR2024时间检验奖和最佳论文奖(RL、LLM、NN、TS、transformer、diffusion)
第十二届学习表征国际会议(ICLR2024)2024年5月7日至2024年5月11日在奥地利维也纳展览会议中心举行,此次会议共收到了7262篇投稿,总体录用率约为31%,其中spotlights论文的录用率为5%(约有363篇),Oral论文的录用率为1.2%(约有85篇)。会议热点仍然集中在RL、LLM、NN、TS、transformer、diffusion等研究方向。原创 2024-05-23 14:26:21 · 973 阅读 · 0 评论 -
首个实现图像动态平滑过渡的AI软件DiffMorpher:2024CVPR
该看过这种两个人像之间平滑过渡的视频,是如何实现的呢?今天就介绍一款基于先进扩散模型,在两张图像之间实现平滑且自然的形变的软件DiffMorpher。DiffMorpher开创了使用扩散模型实现图像间平滑插值的先河。它不仅能够处理静态图像,还能生成动态过渡效果,为用户提供了一种全新的图像处理工具。计算机科学中有一种专门描述此应用的任务——图像变形(image morphing)。给定两张图像,图像变形算法会输出一系列合理的插值图像。原创 2024-05-22 16:35:15 · 629 阅读 · 0 评论 -
帝国理工学院最新 | 超越Scaffold-GS:基于结构感知的3D Gaussian Splatting新视角合成方法
本文提出了一种结构感知的高斯溅射方法(SAGS),用于新视角合成。该方法利用图神经网络编码输入场景的几何信息,实现了点与点之间的信息交互,提高了模型的表示能力。在多个基准数据集上进行了验证,结果表明该方法优于现有方法,包括3D-GS和Scaffold-GS。此外,作者还引入了简化版的SAGS-Lite模型,进一步减小了存储需求,同时保持了渲染质量。实验验证了结构信息对新视角合成的重要性,作者的方法在渲染质量和结构保持方面具有优势。转载自:3DCV 如有侵权,请联系删文在【学长论文指导211,获取论文。原创 2024-05-10 15:11:34 · 948 阅读 · 0 评论 -
中科院版「分割一切」Fast SAM模型 | 精度相当,速度提升50倍!目前GitHub6.9K+星
比Meta的「分割一切模型」(SAM)更快的图像分割工具,来了!中科院团队开源了FastSAM模型,能以50倍的速度达到与原始SAM相近的效果,并实现25FPS的实时推理。该成果在Github已经获得6.9K+次星标,在Twitter、PaperswithCode等平台也受到了广泛关注。原创 2024-04-30 16:47:57 · 1423 阅读 · 0 评论 -
YOLO-NAS | 新一代目标检测王者,性能比yolov8,yolov7更胜一筹!
综上所述,YOLO-NAS的训练数据集需要是格式正确、内容丰富、标注详尽的YOLO模型所支持的格式。这样的数据集不仅能为模型提供充分的训练信息,还能帮助模型在面对实际问题时展现出更好的性能和适应性。在准备数据集时,需要注意数据的质量和多样性,确保数据集能够满足YOLO-NAS训练的要求,从而让模型在实际应用中发挥出最佳的效果。原创 2024-04-30 16:30:23 · 765 阅读 · 0 评论 -
YOLO-World :实时开放词汇对象检测,前沿开集目标检测器!YOLOV8/计算机视觉/深度学习
YOLO-World的实时开放词汇检测能力和优秀的性能使其成为了一个强大的工具,可用于各种需要快速准确对象检测的场景。YOLO在标准基准测试中,World 的速度和效率超过了现有的开放词汇检测器,包括 MDETR 和 GLIP 系列,展示了YOLOv8 在单个 NVIDIA V100 GPU 上的卓越性能。本节详细介绍了可用的模型及其特定的预训练权重、支持的任务以及与各种运行模式(如推理、验证、训练和导出)的兼容性,支持的模式用 ✅ 表示,不支持的模式用 ❌ 表示。可用型号、支持的任务和运行模式。原创 2024-04-08 14:50:56 · 1401 阅读 · 0 评论 -
打造你的专属大模型,学完即可使用上岗!技术人的大模型课程(人工智能/机器学习/深度学习)
在教学方面,Daniel指导的AI研究课题广泛且深入,包括图像分割、医疗报告生成、三维运动生成、多模态对话生成、视频理解及评论生成等,这些课题跨越计算机视觉、自然语言处理和多模态等多个研究方向。他在顶尖学术会议和期刊上发表了15篇以上的论文,包括但不限于ACM MM、CIKM、AAAI、ICLR和TOSEM等,并担任SOSP、ACL、EMNLP、MSR、ICSE、ICSME等多个会议的程序委员会成员或审稿人。4、社区支持与行业网络:加入我们,你将有机会接触行业大咖,参与热点话题的分享,拓宽你的职业网络。原创 2024-04-08 14:25:36 · 1056 阅读 · 0 评论 -
ICLR 2024 |冻结住的CLIP仍可作为教师模型!
不难发现,在UCF-101与HMDB-51数据集上,fine-tune模型的性能比Frozen CLIP更强,但是在Kinetics-600数据集上,fine-tune模型的实验性能却比frozen CLIP要更弱。而在与训练数据不那么相似的测试类别上,模型需要更多地依赖预训练的泛化性知识,但这些知识已经在fine-tune的过程中被逐渐抹去了(典型的灾难遗忘问题(catastrophic forgetting issue)),因此fine-tune模型性能更差。我们在两种场景下都达到了最优的识别性能。原创 2024-03-27 09:42:34 · 681 阅读 · 0 评论 -
自动驾驶方向Autonomous Driving的优质论文及其代码!PC-NeRF、3D三维重建、AoSRNet、无人驾驶技术
与精度高但重复计算的传统以代理为中心的方法以及精度和通用性受到影响的以场景为中心的方法不同,SIMPL 为所有相关交通参与者提供实时、准确的运动预测。为了提高准确性和推理速度,我们提出了一种紧凑而高效的全局特征融合模块,该模块以对称方式执行定向消息传递,使网络能够在单次前馈传递中预测所有道路使用者的未来运动,并减轻 视点移动导致的精度损失。非均匀成像介质中的光散射和衰减或光强度不一致会导致收集到的图像对比度不足和颜色失真,从而限制视觉驱动的智慧城市、自动驾驶汽车和智能机器人等领域的发展。原创 2024-03-15 14:02:08 · 682 阅读 · 0 评论 -
医学图像分割方向优质的论文及其代码【Medical Image Segmentation】UNet、transformer、计算机视觉
所提出的 WSL 策略融合了三种不同的架构但相同的对称编码器-解码器网络:用于详细局部特征提取的基于 CNN 的 UNet、用于全面全局上下文理解的基于 Swin Transformer 的 SwinUNet 以及用于高效长时长的基于 VMamba 的 Mamba-UNet。Weak-Mamba-UNet 的有效性在公开的 MRI 心脏分割数据集上进行了验证,该数据集具有经过处理的涂鸦注释,其性能超过了仅使用 UNet 或 SwinUNet 的类似 WSL 框架的性能。不方便下载的,我已整理好。原创 2024-03-13 14:47:17 · 1181 阅读 · 0 评论 -
2023年最具影响力的 10 篇AI论文(Llama2、SAM、LLM、 Pythia、QLoRA、BloombergGPT、DPO、Mistral 7B、Orca 2、transformer)
一、Pythia — 大模型该如何训练?2023 一年又过去,这一年,AI 圈子以一种“狂飙突进”的速度飞速发展,哪怕在这个领域深耕多年的学者们也开始感叹“从没有见过哪个领域在哪一年如同 AI 领域在 2023 年这样如此飞速的发展与不断的进化”,毫无疑问,这一年 AI,尤其是大模型的爆发将会深刻影响未来我们生活的方方面面。原创 2024-01-16 17:19:29 · 1203 阅读 · 0 评论 -
研究生话题:要基于Pytorch做深度学习,如何快速提升代码能力? --人工智能/深度学习
在深度学习和计算机视觉领域,AlexNet、VGG、ResNet、Yolo和SSD都是极为重要的模型,各自代表了图像识别和对象检测领域的重要进展。为了深入理解这些模型的工作原理和应用,手写代码并亲自进行数据标记和训练是一个非常有效的学习方法。”, 其实就是一份非常有意思的 AI 大模型的介绍性入门课程,如果认真学了,你会学会关于大模型的相关知识,加薪、换工作大概率是个加分项。:这是一个强大的科学计算库,提供了大量的数学函数处理以及对大型多维数组和矩阵的支持,是深度学习中进行数学运算的基石。原创 2024-01-15 17:07:11 · 1030 阅读 · 1 评论 -
放养式图像处理方向研究生如何学习?
学习人工智能方向的语言以及框架,如TensorFlow、PyTorch等,API文档也是个不错的选择,至于网上的哪些教程,网上都能找到,没必要浪费钱了。通过网上课程、教材或教程学习图像处理的基础知识,包括数字图像处理、信号处理、线性代数和统计学等,以及一些相关的机器学习、深度学习专业知识。确定你在图像处理领域(或者说计算机视觉)的具体兴趣和目标,例如图像分割、目标检测等,最好是能够跟导师的研究方向挂钩。创建个人网站或在线作品集,展示你的项目和技能,知乎、博客、github都可。原创 2024-01-12 21:00:00 · 700 阅读 · 0 评论 -
2023最具前景的研究方向之一:人工智能+计算机视觉+3D视觉
计算机视觉是人工智能领域的一个重要组成部分,它涉及使计算机能够理解和解释图像和视频数据。通过机器学习和深度学习技术,计算机视觉能够自动地完成图像分类、目标检测、人脸识别等任务,甚至超越了人类的能力。原创 2023-10-27 17:23:06 · 536 阅读 · 0 评论 -
AI+无人机方向!可以写的专业居然有这么多!人工智能毕业论文计算机视觉
特别是对于工科类的小伙伴们来说,AI无人机+专业学科,已经成为了毕业论文方向的重要选择之一,AI无人机,也是论文发表的热门选题,特别电子信息、计算机科学与技术、核电技术与控制工程、电子信息、流体力学、电气工程、船舶电子电器工程、材料、交通信息工程与控制、航空航天等专业的小伙伴来说,论文发表方向,几乎与AI“强绑定”。原创 2023-08-17 14:43:30 · 263 阅读 · 0 评论 -
CV不存在了?Meta推出最新AI模型SAM,计算机视觉领域的ChatGPT
Facebook母公司Meta在推特宣布推出SAM模型(Segment Anything Model)并开源原创 2023-04-11 14:47:13 · 541 阅读 · 0 评论