自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 机器学习必看:95篇机器学习领域必读经典论文整理分享

机器学习及其相关领域,如深度学习、自然语言处理、计算机视觉、推荐系统、强化学习等领域最近几年非常火,每年各式各样的国际顶会,投稿数每年都会海量增加。要持续Follow这些领域最新的技术,刷遍各大会议最新会议非常费时费力,特别是对于刚入门的同学。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

2025-05-19 17:44:22 166

原创 为零基础及不同背景学习者设计的 人工智能全栈学习路线图

通过此路线图,学习者可从零基础逐步成长为具备技术落地能力的 AI 从业者。关键是保持 “理论学习→项目实战→复盘优化” 的闭环,每 3 个月设定可量化目标(如 “3 个月内用 LoRA 微调 Llama-2,在 WikiQA 数据集准确率达 85%”)。AI 领域技术迭代快,但核心数学与工程思维永不过时,坚持系统化学习与深度实践,必能在浪潮中占据先机。

2025-04-21 17:13:17 907

原创 从 0 到 1 转型 AI:突破技术壁垒的 5 大核心策略与实战路径

转型 AI 不是简单的技能迁移,而是认知框架的重构。从文科生到算法工程师,从传统行业到科技前沿,每一次跨越都需要勇气与智慧的双重加持。Depth:在细分领域成为专家(如医疗影像 AI)Width:构建跨学科知识体系(医学 + 计算机 + 伦理学)Depth:培养技术领导力(主导项目 + 带团队)未来十年,AI 将重构所有行业的底层逻辑。与其被动等待技术颠覆,不如主动拥抱变革。记住:不是 AI 在淘汰人类,而是掌握 AI 的人在淘汰不掌握 AI 的人。现在出发,你就是未来的 AI 领袖。

2025-04-21 17:10:59 908

原创 解决(几乎)所有机器学习问题的神书——Abhishek Thakur《Approaching (Almost) Any Machine Learning Problem》深度解析

Approaching (Almost) Any Machine Learning Problem》的价值在于将经验转化为可复用的方法论。它既不是算法百科全书,也不是竞赛攻略,而是一本 “如何思考” 的操作手册。对于想要突破 “调参困境”、构建系统化工程能力的数据从业者,这本书如同瑞士军刀般实用 —— 虽不能解决所有问题,但能在关键时刻提供最有效的工具组合。建议配合作者的 Kaggle kernels 和 YouTube 教程使用,形成 “理论 - 实践 - 复盘” 的闭环学习体系。

2025-04-21 17:08:40 1184

原创 CVPR2025 | SAM赋能多模态图像融合:让每一滴语义信息都发挥价值

提出的双层优化驱动蒸馏机制结合创新的三元组损失函数,在训练阶段将主网络中包含SAM语义知识的复杂表征有效转移到轻量级子网络,使得在实际推理时子网络能够独立运行而无需依赖计算密集型的SAM模型,大幅降低了计算复杂度,同时保持了卓越的融合性能,极大提高了模型在实际场景中的应用价值。通过充分利用SAM对分割任务的固有适应性(如图右下角所示),我们的方法不仅在理论上实现了"两全其美"——平衡视觉融合与任务性能,更确保了实际推理阶段的高效可行性,为多模态图像融合领域提供了新的技术范式。

2025-04-19 17:10:51 1047

原创 一文读懂计算机视觉,干货满满记得收藏

最简单的、最适合拿来入门的计算机视觉算法是:跟踪一个有颜色的物体,比如一个粉色的球,我们首先记下球的颜色,保存最中心像素的RGB值,然后给程序喂入图像,让程序找最接近这个颜色的像素。事实上,如果不是盲人这类特殊群体,绝大多数人对外界信息的获取都是通过视觉完成的,而这个占比高达80%以上——这个比例并不是没有根据的,著名实验心理学家赤瑞特拉(Treicher)曾通过大量的实验证实:人类获取的信息的83%来自视觉,11%来自听觉,剩下的6%来自嗅觉、触觉、味觉。所以,对于人类来说,视觉无疑是最重要的一种感觉。

2025-04-19 17:07:03 941

原创 一文看懂机器学习与深度学习——主要区别

结果基于这些权重与作为训练集馈送的对象的权重的接近程度。它还使用“奖励功能”,通过奖励期望的结果和惩罚错误的结果来实现自我学习。机器分析的数据越多,通过对未见过的事件或场景做出决策和预测,可以产生更准确的结果。——它是监督学习和无监督学习之间的中间层,展示了两个领域的功能。它可以给出部分标记数据的结果,并且不需要持续调整来给出准确的结果。– 与 CNN 不同,RNN 模型会重新访问之前的结果和数据点,以做出更准确的决策和预测。——它无需人工干预即可发现数据集中的模式和见解,并给出准确的结果。

2025-04-19 16:14:08 302

原创 斩获GitHub2.2k星!腾讯优图联合南京大学开源实时视频-语音交互大模型VITA-1.5

通过缓解模态之间的固有冲突,VITA-1.5 在视觉和语音理解方面实现了强大的能力,能够在不依赖于独立的 ASR 和 TTS 模块的情况下实现高效的 Speech-to-Speech 能力。:包括 LLaVA-150K、LLaVA-Mixture-sample、LVIS-Instruct、ScienceQA、ChatQA,以及从LLaVA-OV 中采样的子集(如一般图像问答和数学推理数据),用于训练模型回答基于图像的问题,并执行视觉推理任务。在 VITA-1.5 的推理阶段,仅使用 Codec 的解码器。

2025-04-18 17:35:09 657

原创 超实用的Transformer项目实战!从原理到代码全解析,学完从毕设到Kaggle竞赛完全可搞定!

在 Transformer 横空出世前,自然语言处理(NLP)领域就已历经了诸多探索。早期,人们试图通过制定复杂的语法规则,让计算机理解和处理语言。然而,自然语言灵活多变,规则模型就像被戴上了沉重枷锁,面对稍复杂的句子便束手无策。随后,基于统计方法的模型出现,它们通过分析大量文本数据中的统计规律来处理语言,相比规则模型有了明显进步。但这类模型在捕捉长距离语义依赖关系时存在短板。以 “” 为例,模型很难精准把握 “那” 与 “故事” 的指代关联。

2025-04-18 17:29:17 637

原创 PyTorch终极进化!3天吃透「深度学习+大模型+AIGC」实战闭环 学完直接干掉80%调包侠

福利说明:扫码后添加群主微信,回复「pytorch」即可领取全部资源!

2025-04-18 17:25:48 917

原创 看见未来,感知未来:统一驾驶世界模型UniFuture

此外,为了增强图像和深度之间的交互,研究团队设计了多尺度交互机制(MLI),在多个尺度上优化图像和深度之间的相互作用,确保最终生成的图像不仅视觉真实,而且能准确预测空间关系,促进了高一致性的未来图像-深度生成。该模型不仅能够生成逼真的未来场景,还能提供高精度的未来深度感知,确保场景的视觉一致性和几何一致性,并体现出了具备构造4D 世界模型的潜力,为自动驾驶系统的决策和规划提供了强有力的支持。:UniFuture通过图像生成和深度感知的结合,不仅提升了生成图像的视觉质量,还确保了深度预测的几何一致性。

2025-04-17 17:43:54 921

原创 CVPR 2025 | 拿下多个第一!MonSter:双目深度估计大模型

本文介绍了MonSter,一种用于立体深度估计的基础模型,旨在利用单目深度估计和立体匹配的互补优势,解决现有立体匹配方法难以处理匹配线索有限的不适定区域,如遮挡、无纹理、细结构、反光等区域,在提升精度的同时增强泛化性能。基于这些见解,我们提出了MonSter,这是一种将立体匹配分解为单目深度估计和逐像素尺度-偏移恢复的新方法,它充分结合了单目和立体算法的优点,克服了缺乏匹配线索的局限性。我们还证明了我们方法的高效性,当使用我们的框架时,仅需要4次迭代就可以达到相比baseline更高的精度,推理速度更快。

2025-04-17 17:38:40 880

原创 何恺明ResNet登顶!Transformer上榜,Nature揭秘21世纪引量用最多的论文

其他软件论文,如排名第十五的scikit-learn(Python机器学习库)和排名第十八的DESeq2(RNA测序分析),因其开源和易用性,成为科学家不可或缺的工具。此外,2017年谷歌发表的Attention is all you need排位列七,论文中提出了著名的Transformer架构,成为ChatGPT等大模型的核心。然而,令人意外的是,那些广为人知的科学发现:从mRNA疫苗和CRISPR基因编辑技术,到希格斯玻色子的发现和引力波的首次测量,并没有出现在这些入选的论文中。

2025-04-17 17:36:06 937

原创 《Python 神经网络编程》:零基础入门神经网络的实战指南

Python 神经网络编程》是一本难得的 “零基础实战指南”,通过 “理论讲解 + 代码实现 + 实验优化” 的闭环,让复杂的神经网络技术变得通俗易懂。无论你是想入门 AI 的小白,还是希望亲手搭建第一个智能模型的爱好者,这本书都能为你提供清晰的路径和实用的工具,助力你在神经网络的世界中迈出坚实的第一步。《Python 神经网络编程》:零基础入门神经网络的实战指南t=P1C7t=P1C7t=P1C7。

2025-04-16 17:30:07 738

原创 惊爆!调参黑科技曝光,导师为何刻意隐瞒?错过再等一年

当你深入深度学习,调参却成 “拦路虎”。学习率、权重系数等参数稍调不对,模型就 “罢工”,最优参数组合更是难寻。花大量时间调参,模型准确率却 “原地踏步”,过拟合、欠拟合还常来捣乱,不禁让人感叹:调参咋这么难?神经网络架构复杂,参数设置变化无穷,尝试新组合不仅耗费资源,效果还不理想,调参痛点亟待破解。今天就和大家好好聊聊调参这件事。本章节内容颇为丰富,我们会以多篇文章的形式,逐一展开讲述。接下来,为大家呈现关于深度学习调参指南的内容导图。在正式开始之前,我把我们整理的。

2025-04-15 11:22:09 1558

原创 CVPR 2025|腾讯优图实验室22篇论文入选,含深度伪造检测、自回归视觉生成、多模态大语言模型等研究方向

配套资料:公众号:AI技术星球,回复:999 拿!!!近日, CVPR 2025(IEEE/CVF Conferenceon on Computer Vision and Pattern Recognition)论文录用结果揭晓,本次大会共2878篇被录用,录用率为22.1%。CVPR是计算机视觉领域的顶级国际会议,CCF A类会议,每年举办一次。CVPR 2025将于6月11日-15日,在美国田纳西州纳什维尔音乐城市中心召开。今年,腾讯优图实验室共有22篇论文入选,内容涵盖深度伪造检测、自回归视觉生成、

2025-04-14 17:04:46 2304

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除