- 博客(1479)
- 资源 (11)
- 收藏
- 关注
原创 干货 | 利用手持摄像机图像通过卷积神经网络实时进行水稻检测
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式获取论文:关注并回复“水稻”计算机视觉研究院专栏Column of Computer Vision Institute小农户在全球粮食供应中发挥着重要作用。随着智能手机越来越普及,它们使小农能够以非常低的低成本收集图像。PART/1摘要在本研究中,研究者提出了一种有效的深度卷积神经...
2024-01-07 10:30:55 993
原创 YoloV8与ChatGPT互通,这功能是真的强大!
点击蓝字 关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式参考地址:https://github.com/ultralytics/ultralytics计算机视觉研究院专栏Column of Computer Vision Institute现在的ChatGPT都是输入文字、图片或者语音,那如果将检测网络或者更上层一点的东西,把视觉与ChatG...
2023-07-12 08:26:47 418
转载 3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式论文标题:MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes论文链接:https://arxiv.org/pdf/2410.06734项目主页:https://mimictalk.git...
2024-11-01 14:30:33 7
转载 26申博时间规划!别再按老套路来了,没用
不知道24年申博的同学有没有感受,往年的申博套路今年用不上了!连套瓷作用都不是很大。申全球排名TOP10学校,无推荐信或暑研直接“寄”......申全球排名TOP30学校,首先方向要macth、且GPA绩点高、且多篇三区(C会)及以上独立一作paper,最好是顶会!paper一作很重要,但是大多数同学没有拿得出来的一作paper!抓住写论文要点技巧,事半功倍!????(下滑有“申硕/博经验分享”免费直播...
2024-10-31 19:31:12 6
转载 一文读懂模型的可解释性(附代码)
大模型的可解释性非常重要。随着模型越来越大,其“黑盒子”特性会严重影响模型结果的准确性,增加对模型的优化难度,以及在医学、金融等领域带来很高的应用风险。因此提高大模型的可解释性,不仅能优化我们的实验结果,其方法本身也是一个可发paper的创新点。今天总结一下目前最全的大模型可解释性技术。首先按照大模型的训练范式分类:传统 fine-tuning 范式和基于 prompting 的范式。基于传统...
2024-10-30 10:30:46 10
转载 三区idea最后发了顶会!
SCI期刊和CCF会议论文发表流程(从确定方向到撰写论文6个步骤),成功发表过或者写过论文的同学都熟悉了(没发过的同学下滑查看)。那发高区论文非常重要的几个点你知道吗?比如:1.高区怎么选方向;2. 确定问题、解决问题的根据;3.从低区到高区的research观念的转变;4.顶会顶刊对于图、曲线、表、正文、公式等信息元素的综合合理使用;5.层次、行文的呈现形式等。这些都是发高区论文起决定性作用的重...
2024-10-29 10:10:42 8
转载 基于Transformer的跨模态3D点云目标检测SOTA!易复现!
ICCV'23旷视科技创新工作Cross Modal Transformer(CMT)提出了——跨模态的Transformer将图像和点云数据作为输入,并且直接生成精确的3D检测框。在nuScenes test数据集上达到了74.1%的NDS(单一模型的最先进技术),同时保持了快速的推理速度。此外,整个跨模态的Transformer设计非常简单,主要是它易于复现。为了让大家更好的掌握跨模态3D目标...
2024-10-28 14:31:04 24
转载 NeurIPS 2024 | 消除多对多问题,清华提出大规模细粒度视频片段标注新范式VERIFIED...
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式论文题目:VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding (NeurIPS 2024 Track on Datasets and Benchmarks)论文链接...
2024-10-28 14:31:04 17
转载 不需要标注了?看自监督学习框架如何助力目标检测
论文链接:https://arxiv.org/pdf/2104.08683.pdf计算机视觉研究院专栏来自自动驾驶公司轻舟智航和约翰霍普金斯大学的学者提出了一个自监督学习框架,可从未标注的激光雷达点云和配对的相机图像中进行点云运动估计,与现有的监督方法相比,该方法具有良好的性能,当进一步进行监督微调时,模型优于 SOTA 方法。图 1:该研究提出的自监督柱运动学习概览。图 2:用于点云体柱运动估计...
2024-10-26 15:30:31 21
转载 又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!...
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式论文标题:SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration论文链接:https://arxiv.org/abs/2410.02367开源代码:https://github.com...
2024-10-25 14:30:39 16
转载 MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理...
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式论文链接:https://arxiv.org/abs/2410.10819项目主页及代码:https://github.com/mit-han-lab/duo-attention计算机视觉研究院专栏Column of Computer Vision Institute本文第一作者肖光烜是麻...
2024-10-25 14:30:39 18
转载 CVPR’24|PanoOcc基于相机的3D全景分割最强SOTA!
在自动驾驶中,全面的三维场景理解至关重要。现有的感知任务,比如目标检测、道路结构分割、深度和高度估计以及开放式对象定位,都只关注于整体三维场景理解任务的一小部分。虽策略简化了算法开发过程,但代价是失去了问题的端到端统一解。新的方法PanoOcc在nuScenes数据集上实现了基于摄像机的语义分割和全景分割的最新结果,同时可以很容易地扩展到密集的占用率预测,并在Occ3D基准显示了良好的性能!准确感...
2024-10-23 14:30:18 34
转载 YOLO-SLD:一种改进的注意机制YOLO车牌检测
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10571945计算机视觉研究院专栏Column of Computer Vision Institute车辆牌照检测在智能交通系统中起着关键作用。检测汽车、...
2024-10-21 14:00:49 24
转载 完爆YOLO家族?新一代目标检测器又有新突破!
23年到24年,仅仅一年YOLO就实现了YOLOv8-YOLOv11的快速迭代,证明YOLO领域的研究还有极大的改进创新空间。但别只看前沿研究,YOLO系列作为目标检测领域最经典的模型,每一代都值得细细琢磨,例如YOLOv7就是对YOLOv4的改进,所以深挖YOLO系列是很有必要的。同样的,GroundingDino作为目前最强开集目标检测器被ECCV‘24成功收录,是视觉多模态极具前景的研究课题...
2024-10-21 14:00:49 25
转载 NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构的高效性能
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式论文标题:HydraLoRA: An Asymmetric LoRA Architecture for Efficient Fine-Tuning论文链接:https://arxiv.org/pdf/2404.19245代码链接:https://github.com/Clin0212/Hy...
2024-10-21 14:00:49 21
转载 Kaggle金牌和CCF A一作哪个更有用?
互联网及传统行业头部大厂对于算法岗招聘的人才不仅要求学历,项目技能,也十分看重竞赛经历。想要从内卷中脱颖而出,光速拿下offer,一个最好的办法就是打kaggle拿牌,作为全球认可度最高的数据科学竞赛平台,kaggle堪称求职的无敌Buff!我们在初学kaggle比赛时,可以找一些金牌or优秀解决方案参考学习。我已经整理好了,大家可以扫码领取(下滑更多干货内容)。金牌优秀解决方案扫码领但这些开源代...
2024-10-17 10:10:33 17
转载 AI智能体引擎加持:天玑9400让「完全体」AI手机提前问世了
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision InstituteAI 手机的形态,再次进化了。相比之下更加「基础」的能力,如多模态大模型的推理,也可以在手机端侧进行:AI 智能体系统概览。图片来自:https://lilianweng.github.io/pos...
2024-10-16 10:15:43 27
转载 发论文别太老实,用对方法一年三篇SCI!
SCI期刊和CCF会议论文发表流程(从确定方向到撰写论文6个步骤),成功发表过或者写过论文的同学都熟悉了(没发过的同学参考下图)。那发高区论文非常重要的几个点你知道吗?比如:1.高区怎么选方向;2. 确定问题、解决问题的根据;3.从低区到高区的research观念的转变;4.顶会顶刊对于图、曲线、表、正文、公式等信息元素的综合合理使用;5.层次、行文的呈现形式等。这些都是发高区论文起决定性作用的重...
2024-10-16 10:15:43 43
转载 VB-LoRA高效登顶!仅需0.4%参数量,极限超越LoRA!
随着大模型应用发展的深入,参数高效微调(PEFT)凭借定制化、精准性等优势,成为大模型优化的热门方式,其中,LoRA引入低秩矩阵,实现了不输全面微调的下游适应性能,但是,增长的训练需求也带来了存储和传输成本,为了显著提升LoRA计算效率,NeurIPS'24最新收录工作VB-LoRA,创新提出了分而共享机制,通过向量库进行全局参数共享,仅需LoRA参数0.4%,调优效率全面超越LoRA!为了帮助...
2024-10-15 19:00:44 78
转载 这篇论文非常火!差分Transformer竟能消除注意力噪声,犹如降噪耳机
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式论文标题:Differential Transformer论文地址:https://arxiv.org/pdf/2410.05258计算机视觉研究院专栏Column of Computer Vision InstituteTransformer 的强大实力已经在诸多大型语言模型(LLM)上...
2024-10-15 19:00:44 73
转载 读博士,去哪找那么多创新点?水水得了...
新手搞科研,最忌讳的就是自己埋头苦干。搞科研,只靠自己是不可能发出高区位论文的!一定要多学习那些顶会大牛“成熟的方法论”和“先进的科研思想”。站在别人的经验之上,才更容易挖掘出极具创新性的那种idea,怎么走都能到达终点!那些杰出学者、顶会主席的学生,就是靠着有他们指点,掌握了科研真正有效的套路和思想,能够一年发好几篇A会、B会!但是普通院校的学生,很难接触到他们,自然就学不到最先进的知识和经验。...
2024-10-14 11:00:44 31
转载 特斯拉机器人真这么丝滑?科技博主在线「打假」:远程操控的
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision Institute特斯拉,你说句话呀。前天,特斯拉开了一场相当科幻的发布会,其中一大看点就是新一代人形机器人 Optimus。「你能以 2 万到 3 万美元的价格购买一台 Optimus 机器人,它可以当老师、帮你照顾...
2024-10-14 11:00:44 25
转载 AAAI一轮投稿结果拒了一半?!附:rebuttal,转投攻略
AAAI会议今年的投稿量突破1w篇,创历史新高,竞争异常激烈。网传AAAI第一轮查结果的方法,约有一半人都被拒了?!但根据往年经验,第一轮通过率在75%左右,所以不少人怀疑出了bug。发表顶会论文面临的是创新点难以挖掘、coding能力不足、没有清晰的体系。除此之外,对于顶会论文的前期准备、节点安排、投稿事项,会议转投等,很多同学也没有清晰规划。为了帮助大家掌握顶会写作重点与技巧,增加中稿机率,研...
2024-10-13 17:30:46 687
转载 一文看懂LLM推理,UCL汪军教授解读OpenAI ο1的相关方法
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式链接:https://github.com/openreasoner/openr/blob/main/reports/Tutorial-LLM-Reasoning-Wang.pdf计算机视觉研究院专栏Column of Computer Vision InstituteOpenAI 最近发...
2024-10-13 17:30:46 32
转载 奖牌All in!20场Kaggle比赛图像检测/分割Top方案分享!
无论是想要求职转码还是升学走科研,kaggle竞赛都是绝佳选择。从实践中理解算法理论,绕开学习周期漫长的纯算法理论学习,从而高效、快速地将优秀的代码能力变为自己的核心技能。作为全球认可度最高的数据科学竞赛平台,kaggle经历在简历中绝对属于高光!一块kaggle奖牌往往能帮我们从内卷中脱颖而出,光速拿下各种offer。我已经整理好了一些金牌or优秀解决方案给大家参考学习。大家可以扫码领取(下滑更...
2024-10-12 12:03:50 84
转载 性能&耗时完爆YOLOv11,RT-DETRv3真正的实时端到端目标检测算法
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式论文链接:https://arxiv.org/pdf/2409.08475计算机视觉研究院专栏Column of Computer Vision InstituteRT-DETR是第一个基于实时端到端Transformer的目标检测器。其效率来源于框架设计和Hungarian matchi...
2024-10-11 10:10:25 176
转载 学会用即插即用缝合模块,轻松涨点发Paper
有创新点,就能顺利发paper吗?当然不是!有了创新点只是开始,模型的编码、调试才是重头戏。很多小伙伴都是改了大量的模型和代码,实验结果却没有多少提升,白白耽误投稿时间。今天就分享一些发paper必备的工具:82个即插即用缝合模块!这些模块就像积木一样,可以按照自己的想法插入到模型中,构建出自己的模型结构。而且模块都是由大牛设计,性能非常强,能大大减少我们的工作量与模型复杂程度。模块共82个:28...
2024-10-10 10:10:27 47
转载 告别CUDA无需Triton!Mirage零门槛生成PyTorch算子,人均GPU编程大师?
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision Institute近日,来自 CMU 的 Catalyst Group 团队发布了一款 PyTorch 算子编译器 Mirage,用户无需编写任何 CUDA 和 Triton 代码就可以自动生成 GPU 内核,并取得更...
2024-10-09 09:30:37 253
转载 节前粉丝福利!深度学习神作“鱼书”系列第四弹强化学习来了!免费送!
点击蓝字 关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision Institute文末有免费获取书籍的方式,请积极参与活动获取免费书籍!2018 年,第一次在日亚的网站上看到这本书时,完全被评论吸睛了,评论阵容大概是这样的。这本被日本网友称为“神本”(即神作)的深度学习入门书,当...
2024-09-27 10:10:36 90
转载 今天面试了一个字节女生,她太太太厉害了!
前言:最近AI相关就业岗位爆了。。。无论是华为、百度、阿里、字节等互联网巨头,还是中小型的科技公司都在高薪挖 AI 人才。上周找字节的面试官朋友(职级3-1)要来了几套高质量AI内部资料和2024吴恩达机器学习资料。既是高效资料库,也是一套AI进阶学习宝典,无论是0基础还是未来想从事AI相关职业的,这套资料都能满足需求。据说有不少朋友靠这套资料成功入职了阿里、腾讯、字节等大厂。掌握了不单能应付面...
2024-09-26 10:11:02 58
转载 送书福利《多模态大模型:算法、应用与微调》等你来拿!!!
【导读】本书旨在提供全面而深入的技术与实践指南,帮助读者应对这些挑战。为此,我尽力使书中的内容深入浅出,既详细解释复杂算法的原理,又直观展示它们在现实世界中的具体应用。从基础到高级,从理论到实践,本书旨在成为连接两侧的桥梁,帮助读者在人工智能的浪潮中乘风破浪,一往无前,并且激励和引导更多的人走上AI技术探索之路。活动2024-10-05 22:00结束!留言说一说# 大模型话题#我们将抽5位留言...
2024-09-25 11:01:01 76 1
转载 新一代目标检测器重大突破!强过YOLO系列?!
清华大学、IDEA研究院联合提出的Grounding DINO,采用了目标检测器DINO的Transformer架构,并借鉴了多模态GLIP的预训练方法,深度融合语言和视觉信息后,可根据文字描述检测任意目标,实现了开集检测性能的重大突破,不仅被ECCV'24成功收录,相关改进也层出不穷,甚至能结合扩散模型完成修图,正在超越DETR、YOLOs等检测系列,成为视觉或多模态极具前景的研究方向!为了帮助...
2024-09-24 10:09:05 115
转载 从架构、工艺到能效表现,全面了解LLM硬件加速,这篇综述就够了
点击蓝字 关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2409.03384计算机视觉研究院专栏Column of Computer Vision Institute大语言模型(LLM)的发展同时往往伴随着硬件加速技术的进化,本文对使用 FPGA、ASIC 等芯片的模型性能、能效表现来了一...
2024-09-21 15:00:45 302
转载 3DGS应用层最新进展:3DGS 和NeRF 哪个会赢?(粉丝福利,免费送书)
点击蓝字 关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision Institute3DGS应用层最新进展:3DGS 和NeRF 哪个会赢?福利见文末3DGS在大规模场景和自动驾驶中的进展2024 年伊始,浙江大学与理想汽车的研发团队提出了一种名为Street Gaussians的...
2024-09-20 12:30:55 333
转载 Sigmoid注意力一样强,苹果开始重新审视注意力机制
点击蓝字 关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式论文地址:https://arxiv.org/pdf/2409.04431项目地址:https://github.com/apple/ml-sigmoid-attention论文标题:Theory, Analysis, and Best Practices for Sigmoid Sel...
2024-09-19 10:11:04 73
转载 超越YOLO、DETR!最强新生代目标检测器!
清华大学、IDEA研究院联合提出的Grounding DINO,采用了目标检测器DINO的Transformer架构,并借鉴了多模态GLIP的预训练方法,深度融合语言和视觉信息后,可根据文字描述检测任意目标,实现了开集检测性能的重大突破,不仅被ECCV'24成功收录,相关改进也层出不穷,甚至能结合扩散模型完成修图,正在超越DETR、YOLOs等检测系列,成为视觉或多模态极具前景的研究方向!为了帮助...
2024-09-19 10:11:04 305
转载 一文看尽2024年主流11注意力机制
注意力机制已经成了模型设计的基础架构,现在模型里没个Attention都不好意思发出来。从注意力机制发布到今天,学术界一直在对Attention进行各种魔改。魔改后的Attention能够提升模型的表达能力、增强跨模态能力和可解释性,以及优化模型大小与效率。最重要的一点,很多注意力模块都是即插即用的。我们可以在自己的模型里用学术大牛的注意力模块,这样再做实验写论文绝对是事半功倍了。近期,包括缩放点...
2024-09-18 10:10:29 57
转载 我不理解,找论文创新点很难吗?
大家是不是都感觉写学术论文真是无从下手啊!写文章之初最难的是找到一个不错的idea,这是非常重要的。这个比写作难的不止一点,如果你有idea的话写起来其实挺快的。主要是多看领域内顶刊文章,模仿别人文献的框架和写作思路,找几篇文献一段一段的模仿写作各个部分!模仿结构、论文框架、模仿数据图、模仿论文各个位置。但是科研新人,即使知道了方法,也依旧无法挖掘到好的idea。我的研一师弟,想要发一篇一区文章。...
2024-09-13 10:10:45 63
转载 CVPR2025投稿ID将再次破万?!卷疯了
纵观CVPR往年投稿人数,2020至2023每年新增1k左右,直到2024创下新高,投稿数量首次破万,收录2719篇,录用率降至23.6%,随着升学和求职日益内卷,拥有一篇顶会论文,似乎成为大多数人的努力目标,而作为认可度最高的顶会之一CVPR,也即将迎来2025投稿,2024年11月14日截止论文提交,2025年1月23日通知审稿结果,不足百天的倒计时,依然有极限投稿的机会!为了帮助大家掌握顶会...
2024-09-12 11:01:23 422
转载 刚刚,苹果首款AI手机发布!A18芯片,新增拍照按钮,AirPods变助听器
点击蓝字 关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision Institute北京时间 9 月 10 日凌晨 1 点,苹果开始发光了。随着苹果园区中蒂姆・库克的身影在六色拱门前显现,主题为「It’s Glowtime」的苹果发布会序幕拉开。iPhone 16 标准版祖传 60...
2024-09-11 09:34:35 233
深度学习合集
2017-12-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人