- 博客(107)
- 资源 (2)
- 收藏
- 关注
原创 阿里云AI搜索开放平台深度技术对比:算法工程师如何选择最优RAG方案?
阿里云AI搜索开放平台通过算法创新与工程优化,在文档解析、多模态检索、大模型推理等核心环节均显著优于开源方案。对于算法工程师而言,(如延迟、精度、成本),并基于对比数据选择最优组合,是高效构建RAG系统的关键。
2025-04-18 23:32:07
445
原创 2025年人工智能指数报告(斯坦福)重点整理
在今天的AI简报中,我将分享斯坦福大学以人为本人工智能研究所(HAI)于2025年4月7日发布的《2025年AI指数报告》的精彩内容。这是该年度报告的第八版,它提供了全球AI格局的详细信息和分析,包括全球应用、出版物、专利、资金、初创企业、技术进步、公众认知、性能基准、就业和教育。完整455报告的链接可在本简报末尾的参考文献部分找到。
2025-04-18 23:27:56
1112
原创 上海AI实验室开源Intern VL3系列模型:整体文本性能优于 Qwen2.5 系列
InternVL3-78B预计是InternVL系列的高阶版本,通过更大参数量、更优训练策略和扩展的模态支持,进一步提升多模态理解的通用性与专业性。其开源特性与高效部署能力,使其在学术研究与工业落地中具有重要价值。具体性能需参考官方发布的评测数据,但基于系列前代表现,可预期其在多模态任务中接近或超越主流商业模型。
2025-04-12 11:29:32
878
原创 Google Cloud Next 2025大会发布多项重大产品
Google Cloud Next 2025大会于2025 年 4 月 9- 11 日在拉斯维加斯曼德勒海湾会议中心举行。
2025-04-11 18:15:37
918
原创 OpenAI发表PaperBench:AI自主复现顶尖论文?
这篇论文介绍了一个名为 PaperBench 的新基准测试,旨在评估AI智能体(agents)复制最先进的AI研究成果的能力。
2025-04-04 08:00:00
575
原创 AI CUDA 工程师:Agentic CUDA 内核发现、优化和组合
与人脑一样,现代人工智能系统也严重依赖由 GPU 等硬件加速器支持的并行处理。但与人脑不同,人脑在生物和文化上进化到在资源受限的情况下高效运作,而人工智能基础模型的最新进展已导致大规模部署和不断增长的推理时间和能源需求,从而导致训练和部署人工智能模型的资源需求呈指数级增长。从根本上讲,现代人工智能系统可以而且应该像人脑一样高效,而实现这种效率的最佳途径是利用人工智能使人工智能更高效!
2025-04-01 18:18:11
678
原创 DeepSeek-V3-0324对比OpenAI GPT-4o和Gemini 2.5 Pro
最近几台大模型圈如过年版热闹,以下是DeepSeek-V3-0324、OpenAI GPT-4o与谷歌Gemini 2.5 Pro模型的更新点及优化对比总结。
2025-03-28 13:54:12
1089
原创 NeurIPS2024顶级论文:全面概述
NeurIPS是世界上最负盛名的会议之一,最新一届再次回归。NeurIPS是“神经信息处理系统”的缩写,专注于机器学习和计算神经科学。NeurIPS每年12月举行,去年的会议2024年12月10日至15日在加拿大温哥华举行。录取率为25.76%(约4037篇论文)。
2025-03-24 19:53:35
877
原创 英伟达GTC 2025炸场!11项黑科技颠覆未来
英伟达刚刚在 2025 年 GTC 大会上震撼了整个 AI 和机器人行业。首席执行官黄仁勋发布了一系列令人瞠目结舌的技术突破。下面是整理的英伟达GTC 2025大会的11大技术亮点,尤其是第三个,绝对让你大开眼界!
2025-03-21 15:21:26
731
原创 一份针对零基础学习AI Agent详细学习计划
以下是针对零基础学习者制定的AI Agent详细学习计划,结合最新行业动态和实用资源推荐,帮助你从入门到进阶系统掌握核心技能
2025-03-20 15:20:32
812
原创 最新AI技术动态概览:从人形机器人到3D模型生成
本文将带您了解近期发布的五项突破性进展,包括英伟达的人形机器人基础模型GR00T N1、LG开源的高级推理模型EXAONE Deep、Stability AI的图片转3D视频工具Stable Virtual Camera、Mistral的新一代文本处理模型Mistral Small 3.1-24B,以及腾讯最新升级的3D模型创作系统混元3D 2.0。模型生成模型基于流扩散的扩散模型构建,旨在生成与给定条件图像精确匹配的模型,为应用基础模型。英伟达开源的机器人DiT模型,2B参数,能看和听,能行动。
2025-03-20 08:00:00
1089
原创 LLM后训练:解锁大型语言模型推理能力的关键路径
大型语言模型(LLMs)通过预训练掌握了海量语言模式,但其核心缺陷——幻觉、逻辑断裂、价值观偏差——暴露了单纯预训练的局限性。后训练(Post-Training)作为预训练后的精修阶段,通过微调、强化学习、测试时扩展三大技术支柱,成为提升模型推理能力、事实准确性与伦理对齐的核心手段
2025-03-15 17:25:29
788
原创 Mistral OCR:目前OCR模型SOTA
MistralOCR支持多种语言,评分全面超过Gemini 2.0 Flash,支持在Le Chat使用和API调用。
2025-03-09 09:28:13
955
原创 梁文锋亲自挂名DeepSeek发布新论文
由 DeepSeek 联合创始人梁文锋亲自挂名的研究团队,在 arXiv 上发表了一篇题为“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”的论文,提出了一种全新的注意力机制架构 NSA(Native Sparse Attention,原生稀疏注意力)。
2025-02-18 23:06:14
1171
原创 DeepSeek发布自己的AI图像生成器Janus-Pro
简单来说,Janus-Pro是一个强大的AI模型,它可以理解图像和文本,还可以根据文本描述创建图像。
2025-02-10 23:10:06
1413
1
原创 HuggingFace开源Deep Research
代理框架是 LLM 之上的一层,用于使所述 LLM 执行操作(例如浏览网页或阅读 PDF 文档),并将其操作组织成一系列步骤。
2025-02-06 19:38:26
1220
原创 8个强化学习相关资源助你深入了解deepseek
随着 DeepSeek-R1的推理能力的出现,我们都看到了强化学习(Reinforcement learning,简称RL)的影响力。从本质上讲,RL 是一种机器学习,其中模型/代理通过与环境交互来学习做出决策,以最大化奖励。
2025-02-03 22:10:51
1069
原创 计算机科学史上最具影响力的7篇论文
在开始之前,先澄清一下:是的,这是一份主观的清单。它不是为了结束辩论,而是为了开始辩论。这七篇论文(按日期排序)之所以让人印象深刻,主要是因为它们对当今世界的影响。老实说,每一篇都值得写一篇博客文章(甚至一本书!)——但现在先简短一点。如果你最喜欢的没有出现在这里,别担心,请继续看最后的其他部分。阿兰·图灵那是 20 世纪 30 年代,“可编程机器”听起来就像科幻小说里的情节。后来艾伦·图灵的出现为计算机理论上可以做什么奠定了基础。
2025-02-01 00:25:55
1008
原创 大模型迎来2025开年大作:deepseek-R1与deepseek-R1-Zero
DeepSeek版o1,有消息了。还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。 注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。
2025-01-21 00:15:44
30126
原创 Artificial Analysis发布2024年AI领域的关键进展
这篇文章《Artificial Analysis AI Review 2024 Highlights》总结了2024年AI领域,特别是语言模型和其他AI技术的主要进展。
2024-12-29 23:43:40
878
原创 Llama3.370B超越GPT-4o和Claude3.5 Sonnet
Llama 3.3 是 Meta AI 推出的拥有 70B 参数的大型多语言预训练语言模型。该模型在性能上与 405B 参数的 Llama 3.1 相当,并针对多语言对话进行了优化,支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.3 具有更长的上下文窗口、多语言输入输出功能以及与第三方工具集成以扩展其功能的能力,使其适合商业和研究用途。
2024-12-22 21:47:39
1216
原创 2024年引用次数排名前TOP10的AI论文
2024 年,人工智能研究界发表了大量开创性的论文,引起了整个行业的关注。在这篇全面的博客文章中,将深入探讨今年被引用次数最多的 10 篇人工智能研究论文
2024-12-20 00:00:49
1515
原创 致敬OpenAI吹哨人Suchir Balaji:生成式人工智能何时才有资格获得合理使用?
Suchir Balaji 是一名印度裔美国研究员,曾是OpenAI的人工智能研究员,参与收集和组织用于训练ChatGPT的大量互联网数据。他最初认为公司可以自由使用任何互联网数据,包括受版权保护的数据。后来,他意识到这种做法可能违反法律,并认为ChatGPT等技术对互联网有破坏性影响,最终在2023年8月辞职。
2024-12-15 18:16:32
678
原创 OpenAI重磅消息发布12天直播 –实时更新day7
OpenAI提前开启了假期,推出了为期 12 天的活动,名为“OpenAI 12 天”。在接下来的一周左右的每一天,OpenAI 都将发布现有产品的新更新以及新软件,包括备受期待的 Sora AI 视频生成器。OpenAI 首席执行官 Sam Altman 表示,每天都会进行直播,并发布新内容或演示,“包括一些大型活动和一些圣诞礼物”。该公司通过隆重发布 o1 推理模型以及ChatGPT的新业务层(称为 ChatGPT Pro)拉开了庆祝活动的序幕。
2024-12-12 01:11:30
905
原创 超越DFINE最新目标检测SOTA模型DEIM
DEIM 通过采用密集的一对一(Dense O2O)匹配策略和提出一种新颖的损失函数 Matchability-Aware Loss (MAL),来增加每张图片中的正样本数量,优化不同质量水平的匹配效果。在 COCO 数据集上的广泛实验验证了 DEIM 的有效性。与 RT-DETR 和 D-FINE 集成时,DEIM 能显著提升性能并减少50%的训练时间。搭配 RT-DETRv2 使用时,DEIM 在 NVIDIA 4090 GPU 上仅用一天训练就达到了 53.2% AP。
2024-12-09 23:34:27
2152
原创 Diffusion异常检测相关论文及代码整理
扩散模型(Diffusion Models)是一种生成模型,广泛用于图像生成、文本生成等领域。在异常检测任务中,扩散模型也可以被用来识别和检测异常数据点。该文章对近几年利用扩散模型进行异常检测的文章进行了整理
2024-11-26 23:46:55
2278
原创 重磅!首个目标检测大模型(识别万物):DINO-X
IDEA 开发了一个通用物体提示来支持无提示的开放世界检测,从而无需用户提供任何提示即可检测图像中的任何内容。
2024-11-25 08:30:00
3622
原创 手把手教你使用 Nvidia的NIM 微服务进行结构化文本提取
此示例展示了如何使用 Vision NIM(VLM、Florence、OCDRNet)和 LLM 创建用于从图像中提取结构化文本。
2024-11-03 23:47:57
996
原创 AI图像相似性搜索对比:VIT, CLIP, DINO-v2, BLIP-2
使用不同的 AI 模型,例如 ViT、CLIP、BLIP、EfficientNet、DINO-v2 和 VGG16比较图像并查看它们的相似之处。
2024-11-03 22:37:05
3243
2
原创 YOLO框架最新综述从YOLOV1-YOLOV11(2024年10月23)
这篇文章《YOLO框架:目标检测中的演变、应用与基准的全面回顾》是一篇关于YOLO(You Only Look Once)框架的综合性回顾。
2024-10-29 00:34:10
19070
原创 Stability AI带着SD3.5 回来了!可免费商用
2024年10月22号,Stability AI 推出 Stable Diffusion 3.5。这是Stability AI 迄今为止最强大的模型。此开放版本包含多个可定制的变体,可在消费级硬件上运行,并可在宽松的Stability AI 社区许可证下使用。
2024-10-27 16:23:15
1434
1
原创 Janus:开创统一的多模态理解和生成框架
Janus是DeepSeek开源的多模式自回归框架,统一了多模态理解和生成,既可以理解图片内容又可以生成图片。
2024-10-21 23:37:42
1906
原创 目标检测最新SOTA模型D-FINE
2024年10月18号,中科大推出了 D-FINE,这是一款功能强大的实时物体检测器,通过重新定义 DETR 模型中的边界框回归任务实现了出色的定位精度。
2024-10-18 23:10:04
4589
原创 AI先驱荣获2024诺贝尔物理学奖
2024年10月8日瑞典皇家科学院决定将 2024 年诺贝尔物理学奖授予约翰·J·霍普菲尔德美国新泽西州普林斯顿大学。杰弗里·E·欣顿加拿大多伦多大学“因推动利用人工神经网络进行机器学习的基础性发现和发明”
2024-10-08 21:35:14
1046
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人