- 博客(1046)
- 资源 (1)
- 收藏
- 关注

原创 Coursera吴恩达《深度学习》课程总结(全)
01 神经网络和深度学习(Neural Networks and Deep Learning)1-1 深度学习概论主要介绍:主要对深度学习进行了简要概述。首先,我们使用房价预测的例子来建立最简单的单个神经元组成的神经网络模型。然后,我们将例子复杂化,建立标准的神经网络模型结构。接着,我们从监督式学习入手,介绍了不同的神经网络类型,包括Standard NN,CNN和RNN。不同的神经网络模型适合处理不同类型的问题。对数据集本身来说,分为结构化数据和非结构化数据。近些年来,深度学习对非结构化数据的处理
2021-09-24 19:01:44
39540
4
原创 python | scalene,一个超酷的 Python 库!
Scalene是一个高性能的Python分析器,专为发现CPU和内存使用效率问题而设计。它由马萨诸塞大学开发,区别于传统分析器,Scalene能够精确定位Python代码和原生代码的性能瓶颈,并提供内存分配和内存泄漏的详细分析。
2025-05-03 08:15:00
969
原创 极市平台 | 首篇MCP技术生态全面综述:核心组件、工作流程、生命周期
模型上下文协议(MCP):一种标准化接口,旨在实现AI模型与外部工具和资源之间的无缝交互,打破数据孤岛,促进不同系统之间的互操作性。
2025-05-03 03:30:00
701
原创 Coggle数据科学 | 小白学大模型:多模态 Qwen2.5-VL
Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型性能强大,具备多语言对话、多图交错对话等能力,并支持中文开放域定位和细粒度图像识别与理解。
2025-05-02 10:20:45
342
原创 码科智能 | 从分割一切到描述一切!从笼统概括到细粒度区域描述!英伟达开源DAM模型:指令控制的字幕生成
如果AI能像上述一样事无巨细地观察世界,会发生什么?之前爆火的SAM模型让我们能"分割一切",但分割后的区域到底意味着什么?进一步地给出该区域的目标类别显然不够,我们还是希望AI能描述该区域的细节内容!
2025-05-02 10:19:27
558
原创 NLP奇幻之旅 | Redis快速入门(推荐阅读!)
Redis是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API,如Java, Python, PHP等。
2025-04-30 02:15:00
652
原创 江大白 | PyTorch CUDA 内存管理优化:深度理解GPU资源分配与缓存机制!
本文深入理解 PyTorch 是如何管理和分配 GPU 显存的,并结合实战经验,探讨如何通过定制内存策略和调度机制,最大化你的 GPU 集群性能,摆脱 CUDA out of memory 恐惧症。
2025-04-29 21:55:46
1018
原创 小白学视觉 | 小白看得懂的 Transformer (图解)
谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率。在本文中,我们将研究Transformer模型,理解它的工作原理。
2025-04-29 21:52:56
852
原创 集智书童 | 新一代LMM基线发布 | 早期自回归融合+预训练先验驱动,性能直追组合模型,训练资源大幅精简!
近年来,大语言模型(LLMs)的进展显著推动了大型多模态模型(LMMs)的发展,突显了通用和智能助手的潜力。然而,大多数LMMs分别对视觉和文本模态进行建模,导致近期努力开发使用单个transformer的局部LMM。尽管前景看好,但这些局部模型资源密集,通常与它们的组合对应模型相比存在性能差距。
2025-04-28 16:28:51
955
原创 江大白 | DeepSeek的风吹到了多模态,Visual-RFT发布,视觉任务性能飙升20%!(附论文及源码)
上交大提出 Visual-RFT,将 RFT 扩展至视觉任务,借可验证奖励函数(如 IoU、分类准确率奖励)与策略优化,提升 LVLMs 性能。实验显示,少样本场景下视觉任务性能飙升 20%+,相关成果开源。
2025-04-27 17:24:19
306
原创 CV技术指南 | CVPR‘2025 | AA-CLIP:赋予CLIP模型对异常的感知能力
为解决CLIP的“异常无意识”问题,作者提出了Anomaly-Aware CLIP(AA-CLIP),通过增强CLIP在文本和视觉空间中的异常辨别能力,同时保留其泛化能力,从而提高零样本AD任务的性能。
2025-04-27 16:53:08
1069
原创 AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(二)
不同领域的交互式人工智能策略,扩展了调用大型基础模型的范式,训练有素的智能体会积极收集用户反馈、动作信息、用于生成和交互的有用知识。有时,大语言模型/视觉语言模型无需再次训练,我们可以通过在测试时为智能体提供改进的上下文提示来提高其性能。另一方面,它总是涉及通过三重系统的组合进行知识/推理/常识/推断交互式建模—— 一个系统从多模态查询中执行知识检索,第二个系统从相关智能体执行交互式生成,最后一个系统通过强化学习或改进的模仿学习方法,进行新的、有信息的自监督训练或预训练。
2025-04-25 16:26:56
882
原创 AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(一)
你能想象未来的AI不仅能听懂你的话、看懂你做的事,还能像人一样在真实和虚拟世界中灵活行动、与你自然互动吗?Agent AI的出现正让这个想象逐渐成为现实!它融合了多种前沿技术,在游戏、医疗、机器人等领域掀起了创新浪潮,但同时也面临着不少难题。想知道它究竟是如何做到的,又有哪些挑战吗?快来一探究竟!
2025-04-25 16:17:34
825
原创 CourseAI | 【综述:入门必读】RAG演变到MRAG的三个阶段
多模态检索增强生成 (MRAG) 通过将多模态数据(例如文本、图像和视频)集成到检索和生成过程中。MRAG 通过扩展 RAG 框架以包含多模态检索和生成来解决此限制,从而实现更全面和上下文相关的响应。在 MRAG 中,检索步骤涉及从多种模态中定位和整合相关知识,而生成步骤则利用多模态大型语言模型 (MLLM) 来生成包含多种数据类型信息的答案。
2025-04-24 17:27:06
825
原创 AI生成未来 | 只需一张图,万物皆可插!Insert Anything开源啦!开创AI图像插入新时代|浙大&哈佛等(推荐收藏!)
本文提出统一框架Insert Anything,通过支持掩码/文本双引导模式突破专用方法局限。基于12万提示-图像对的AnyInsertion数据集和DiT架构,创新性地采用双联画/三联画提示策略实现上下文编辑机制,在保持身份特征的同时确保视觉协调性。三大基准测试表明,本方法在人物/物体/服装插入任务中全面超越现有技术,为基于参考的图像编辑树立新标杆,为实际创意应用提供通用解决方案。
2025-04-24 17:25:40
620
原创 kaggle竞赛宝典 | 国内最快的推理模型!效果比肩 DeepSeek R1,速度快 8 倍!
以前,大家往往比拼模型的参数规模、模型效果;后来,大家开始卷价格;就在今天,智谱 AI 这位老哥,突然开源了一个速度起飞的推理模型,直接把“速度”这张牌打成了王炸。
2025-04-23 16:29:47
793
原创 码科智能 | 细节超越SAM2!商汤开源视频抠图新标杆:MatAnyone一次指定全程追踪,发丝级还原
当SAM2引爆图像分割革命,MatAnyone这种设置既兼顾用户可控性,又具有更强的实用性和鲁棒性,正在视频抠图领域竖起新的技术标杆。
2025-04-22 17:07:52
599
原创 集智书童 | 45倍加速+最新SOTA!VAE与扩散模型迎来端到端联合训练:REPA-E让VAE自我进化!
本文探讨了一个基本问题:“我们是否能够实现基于隐空间扩散 Transformer 的端到端训练,从而释放 VAE 的潜力?”具体来说,观察到,直接将扩散损失反向传播到 VAE 是无效的,甚至会降低最终的生成性能。尽管扩散损失无效,但可以使用最近提出的表示对齐损失进行端到端训练。所提出的端到端训练方案(REPA-E)显著改善了隐空间结构,并展现出卓越的性能:相较于 REPA 和传统训练方案,扩散模型训练速度分别提升了超过 17× 和 45×。
2025-04-22 16:27:08
728
原创 Coggle数据科学 | 从零实现 DeepSeek R1:从基础模型到强化推理模型
在人工智能领域,语言模型的推理能力一直是研究的热点和难点。DeepSeek R1 作为一款专注于推理的先进语言模型,其训练过程和技术创新为自然语言处理领域带来了新的突破。
2025-04-21 17:29:44
1373
原创 python | segno,一个神奇的 Python 库!
二维码已成为现代生活中不可或缺的一部分,从支付到登录,从信息分享到物联网设备配置,二维码以其高效和便捷广泛应用于各个领域。对于 Python 开发者来说,Segno 是一个强大且灵活的二维码生成库。它提供了多种功能,包括生成高质量的静态和动态二维码、支持多种标准格式,并允许高度定制化。Segno 的设计注重易用性,帮助开发者快速实现复杂的二维码生成需求。
2025-04-20 00:30:00
933
原创 我爱计算机视觉 | 2025 TPAMI综述 | 全新视角红外与可见光图像融合完整理解与入门!附GitHub最全开源对比方法结果!
红外与可见光图像融合,正站在从理论研究走向实际应用的关键十字路口。本综述不仅系统梳理了当前主流方法与数据集,也首次从“数据-融合-任务”的完整链路出发,搭建起了一个统一的研究框架。我们希望这份工作,能为研究者提供参考,为工程实践者带来启发,也为未来的发展方向提供一些思路。欢迎关注本文的 GitHub 项目,共同完善红外与可见光融合技术的知识地图!
2025-04-20 00:15:00
781
原创 新智元 | 全网最全「吉卜力」AI神器总结!只要2分钟,照片秒变吉卜力
一起来试试吧!【新智元导读】不止GPT-4o可以制作吉卜力风格图像!更多工具都可以制作吉卜力风图像。甚至2分钟之内,还能用照片生成吉卜力风格动画:蒙娜丽莎给你说Hello。
2025-04-19 17:28:53
372
原创 AI生成未来 | Seedream 3.0技术细节重磅发布!中文图文生成再进化,2K高清+爆改文字渲染,远超Canva!
在 Seedream 2.0 中,采用了一种严格的数据过滤策略,系统性地剔除包含轻微缺陷(如水印、覆盖文字、字幕、马赛克等)的图像数据。这种严格的过滤显著限制了训练所用数据量,尤其考虑到此类缺陷样本约占原始数据集的 35%。为解决这一问题,Seedream 3.0 引入了一种创新的“缺陷感知训练范式”。该范式包含一个专门训练的缺陷检测器,基于 15,000 张由主动学习引擎挑选并人工标注的样本构建。该检测器可通过边界框预测精确定位缺陷区域。
2025-04-19 17:27:17
923
原创 python | Python开发进阶:构建可复用工具类的3种核心模式
在专业的Python开发过程中,代码复用是提高开发效率和代码质量的关键。通过创建自定义工具类,可以将常用功能封装起来,使其更易于维护和使用。
2025-04-18 20:22:58
409
原创 易安说AI | GPT-4o的吉卜力魔法让所有人都成了动画大师
一起来试试吧!无论GPT-4o背后的具体技术是什么,它的确展示了AI图像生成的惊人进步。从吉卜力风格的创意插图到产品合成图,从概念可视化到精美海报,GPT-4o为创意工作者提供了一个强大的新工具。 虽然它还不能完全替代专业设计师和摄影师,但对于快速创意概念验证、简单图像编辑以及日常视觉内容创作来说,GPT-4o已经足够强大且易于使用。
2025-04-17 17:32:39
1004
原创 @算法进阶 | 首次!抖音公开算法原理
近日抖音相关业务负责人基于网站版块,就社会关切的算法和治理问题展开介绍。推荐算法作为人工智能机器学习技术的重要应用场景,本质上是一套高效的信息过滤系统。在抖音的实际应用中,推荐系统采取“人工+机器”协同的方式进行风险治理,始终有人工运营和治理体系为算法导航;多目标体系算法能主动打破 “信息茧房”,为用户带来更丰富多元、实用可靠的推荐结果。
2025-04-17 17:12:26
650
原创 Datawhale | 聊聊强化学习发展这十年
大概在十年前,在我刚做RL的时候,其实RL没有定义,只有描述,大家认为RL是一种解决马尔可夫决策过程的方法,典型算法包括DQN、PPO。当然那时我们有一种历史局限,就认为这个描述是个充要条件。也就是认为只有value-based算法(DQN),policy-based算法(PPO)这种才算是强化学习,其他统统不算。
2025-04-16 21:27:58
895
原创 江大白 | Transformer算法内部,工作原理及拆解
Transformer展现了前所未有的语言理解和生成能力,推动 AI 技术进入新纪元。本文将对Transformer内部工作原理进行拆解,希望对大家有所帮助。Transformer 是一种特定的神经网络架构,彻底改变了人工智能领域,尤其是在自然语言处理 (NLP) 中。它是大型语言模型(如 ChatGPT)的核心技术。LLMs 是基于大量文本数据训练的 AI 系统,能够生成类似人类的文本、翻译语言、撰写不同类型的创意内容,以及回答问题。
2025-04-16 17:24:52
1011
原创 写代码的中年人 | 使用 VLLM 部署 DeepSeek:基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南
最近,大语言模型(LLM)的部署已经成为 AI 开发者绕不开的核心技能。而 VLLM 作为一款高性能、低延迟的推理引擎,在大模型推理领域迅速崛起。今天,我就带大家从零开始,在 Ubuntu 22.04 + RTX 4090 + Docker 环境下,部署 DeepSeek模型,并让它跑起来!
2025-04-15 17:58:53
831
原创 集智书童 | YOLO-LLTS暗夜王者 | 高分辨率特征+多分支交互注意力,先验增强攻克噪声模糊,3个数据集mAP全面领跑(建议收藏)
在低光照条件下有效检测交通标志仍然是一个重大挑战。为了解决这个问题,作者提出了YOLO-LLTS,这是一种专门为低光照环境设计的端到端实时交通标志检测算法。首先,作者引入了高分辨率特征图用于小目标检测(HRFM-TOD)模块,以解决低光照场景中模糊的小目标特征问题。通过利用高分辨率特征图,HRFM-TOD有效地缓解了传统PANet框架中遇到的特征稀释问题,从而提高了检测精度和推理速度。其次,作者开发了多分支特征交互注意力(MFIA)模块,该模块促进了在通道和空间维度上多个感受野之间的深度特征交互,显著提高了
2025-04-15 17:55:31
1167
原创 集智书童 | R1-VL登场 | 清华团队提出StepGRPO逐步奖励机制,重塑AI推理范式
近期研究通常通过在高质量思维链推理数据上进行的监督微调来增强多语言语言模型(MLLMs)的推理能力,这往往导致模型仅仅模仿成功的推理路径,而不理解错误的推理路径是什么。
2025-04-14 17:32:21
910
原创 OpenCV与AI深度学习 | 计算机视觉开发者都应掌握的10个必备工具
OpenCV 和 Keras 等工具为初学者提供了简单的切入点,而 PyTorch、TensorFlow 和 DVC 等高级选项则帮助经验丰富的开发人员应对更复杂的挑战。
2025-04-13 19:51:59
857
原创 python | faker,一个非常厉害的 Python 库!
在软件开发和测试过程中,生成真实可信的测试数据是一项重要但耗时的工作。Python的faker库提供了一个简单而强大的解决方案,它能够生成各种类型的虚拟数据,包括个人信息、地址、公司信息等。这些数据看起来十分真实,非常适合用于开发测试、数据库填充和应用程序演示。
2025-04-13 02:15:00
378
原创 python | Python内存模型:对象创建与销毁的生命周期
Python作为一种高级编程语言,为开发者提供了自动内存管理机制,使开发者能够专注于业务逻辑而无需手动管理内存分配和释放。Python的内存管理系统主要由内存分配器和垃圾回收器两部分组成,它们共同协作,确保程序内存使用的高效性和安全性。
2025-04-12 17:01:08
809
原创 集智书童 | DETR家族再添大将 | 清华&重大提出MI-DETR,并行多时间Query突破级联解码的瓶颈
基于对现有DETR-like模型中广泛采用的级联解码器架构特性的分析,本文提出了一种新的解码器架构。级联解码器架构限制了目标 Query 在级联方向上的更新,仅允许目标 Query 从图像特征中学习相对有限的信息。然而,自然场景中目标检测的挑战(例如,极小、严重遮挡和与背景混淆混合)要求目标检测模型充分利用图像特征,这促使作者提出了一种具有并行多时间 Query (MI)机制的新解码器架构。
2025-04-12 17:00:02
930
原创 kaggle竞赛宝典 | 10种竞赛数据预处理中的数据泄露模式解析
在机器学习教学实践中,我们常会遇到这样一个问题:"模型表现非常出色,准确率超过90%!但当将其提交到隐藏数据集进行测试时,效果却大打折扣。问题出在哪里?"这种情况几乎总是与数据泄露有关。当测试数据在数据准备阶段无意中泄露(渗透)到训练数据时,就会发生数据泄露。这种情况经常出现在常规数据处理任务中,而你可能并未察觉。当泄露发生时,模型会从本不应看到的测试数据中学习,导致测试结果失真。
2025-04-11 17:44:24
692
全国省-市-区城市经纬度汇总.csv
2020-09-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人