俊哥V-CSDN博客

原创 AI一周事件（2025年5月27日-6月2日）

技术路径分化：美国在AI芯片和硬件基础设施上持续投入，如英伟达的B30芯片和GridFree AI的模块化电力系统；中国则在大模型的开源和实际应用上加速推进，如小米的MiMo模型和DeepSeek-R1在医疗领域的应用。开源生态的兴起：从DeepSeek的3FS文件系统到Manus AI的自主代理，开源工具和平台的不断涌现正在重塑AI开发的生态系统，降低了技术门槛，促进了创新。AI伦理与治理的挑战：随着AI技术的快速发展，如何在促进创新的同时确保伦理和治理的同步进展，成为亟需解决的问

2025-06-03 19:41:21 689

原创思维革命：DeepSeek-R1-0528 如何用一次小更新颠覆大模型格局

DeepSeek-R1-0528 虽名义为“小版本”，却以扎实的推理深度重构、幻觉控制突破和开源诚意，重新定义了大模型的竞争高度。其87.5% 的AIME准度与接近GPT-4o/Claude 4的综合表现，不仅是技术里程碑，更是中国AI从追赶到并跑的关键转折。正如网友所言：“一个小更新尚且如此，R2 会多强？此刻，全球AI的格局已静默改写。🔗DeepSeek-R1-0528 HuggingFace 主页。

2025-05-30 16:00:43 1026

原创 AI一周事件（2025年5月20日-5月26日）

AI技术新进展与行业动态摘要全球AI领域近期迎来多项突破：Anthropic发布Claude4系列模型，编程能力领先并获企业级安全认证；OpenAI全面开放GPT-4o多模态API，推动交互实用化；Meta开源多模态模型Chameleon，补足生态短板；微软发布三大AI平台，打通智能体开发全链路。国内方面，阿里云推出通义千问2.5及智能体平台，百度发布自研文心一言4.5，华为昇腾算力集群实现技术突破。安全与伦理争议凸显，如ChatGPT拒绝关机事件、AI医疗误诊及生成模型数据滥用问题，呼吁加强安全设计和

2025-05-27 18:48:24 2296

原创 AI一周事件（2025年5月13日-5月19日）

清华大学联合北京通用人工智能研究院、宾夕法尼亚州立大学的研究团队于2025年5月12日提出，该方法通过机制，使预训练大模型无需依赖外部数据即可自主提升推理能力。其核心在于模型同时扮演与的双重角色，通过生成、验证和解决代码任务实现闭环学习。实验显示，经过训练的模型在代码生成（如HumanEval+、MBPP+）和数学推理（如AMC、MATH500）等任务中，性能超越依赖专家标注数据的传统模型，甚至在跨领域泛化中展现优势。

2025-05-20 13:15:42 1065

原创 AI一周事件（2025年5月7日-5月13日）

本周，AI领域呈现多场技术突破与产品升级，涵盖语言模型治理架构调整、垂直化医疗智能体、数字人生成、通用多模态模型优化、企业级协作工具演进，以及开源生态持续扩张。整体趋势集中在「多模态融合」「行业落地」「开源普惠」三方面，同时伴随数据隐私与技术滥用风险的持续讨论。

2025-05-14 13:30:28 629

原创 AI一周事件（2025年4月30日至5月6日）

推出包含8款模型的Qwen 3系列，覆盖密集模型与混合专家模型（MoE）架构，旗舰模型Qwen3-235B-A22B（MoE）性能对标DeepSeek-R1和Gemini 2.5 Pro。AI+硬件（如中国AI机器人和美国云计算）、AI+医疗（如中国诊断软件和美国健康AI工具）等场景加速落地，凸显技术泛化能力。结合Foundation-sec-8B模型与AI Defenders工具，降低企业安全运营成本，推动AI在网络安全领域普及。开源模型在推理效率与性能间取得新平衡，支持开发者低成本部署复杂AI应用9。

2025-05-07 09:23:38 1123

原创 AI一周事件（2025年4月22日至4月29日）

最近一周，AI领域在中国和美国均展现出强劲的发展势头，中国在开源模型和产业应用上取得进展，美国则通过政策和技术创新强化其全球领导力。全球范围内，AI在伦理、算力和应用上的挑战日益突出，中美在技术路径和供应链上的分歧可能进一步影响全球AI生态的演变。未来，AI的可持续发展与国际合作将是关键议题，需关注技术伦理和政策协调的进展。关键引文阿里巴巴发布Qwen3系列大语言模型成都人形机器人创新中心技术突破xAI官方博客Grok 3更新DeepSeek官方发布新模型。

2025-04-30 09:49:15 816

原创 AI一周事件（2025年4月15日至4月22日）

本周AI领域呈现“技术突破加速、政策博弈深化、生态竞争白热化”的特点。

2025-04-22 19:21:59 645

原创 AI一周事件（2025年4月8日至4月16日）

推进大模型垂直化落地，开源与闭源路线分化加剧。

2025-04-16 20:26:56 1321

原创 AI一周事件（2025年3月31日至4月7日）

Meta发布了Llama 4系列，包括Llama 4 Scout（长文本处理）和Llama 4 Maverick（创意写作），Llama 4 Behemoth（STEM专用）也在预览中。阿里巴巴的通义千问模型在全球开源模型排行榜中位居第一，显示了中国在AI开源生态系统中的领先地位。AI公司Runway推出了Gen-4视频模型，进一步提升了AI在视频生成领域的性能。OpenAI的ChatGPT推出了原生图像生成功能，并向免费用户开放，这进一步推动了AI图像生成技术的普及。, 这可能进一步扩大AI的全球影响。

2025-04-08 14:04:35 405

原创 [思考记录]面对技术名词.保持清醒

不应被这些技术名词的“花架子”唬住，而应看到背后的思想——理解它们为什么而生、解决什么问题、适用与不适用的场景，或者实现手段有哪些参考。毕竟，从结果来评判解决问题方式的优劣，“用小成本且可靠有效解决”会要比“用了高大上的理念和技术解决”更好。即使不了解这些名词，也不影响我们规划行程。但了解之后，可能会感叹——哦，原来我们之前走了“自由行+局部跟团”的混搭模式。记录提醒——对于解决方案或思路和理念类的技术名词，尤其需要保持警醒，先理解“为什么而生”以及“什么场景用”，而不是想着“怎么用”甚至“必须用”。

2025-04-03 15:33:26 128

原创阿里通义千问发布全模态开源大模型Qwen2.5-Omni-7B

Qwen2.5-Omni 是一个端到端的多模态模型，旨在感知多种模态，包括文本、图像、音频和视频，同时以流式方式生成文本和自然语音响应。汇聚各领域最先进的机器学习模型，提供模型探索体验、推理、训练、部署和应用的一站式服务。（以下借助 DeepSeek-R1 辅助生成），阿里巴巴通义千问团队正式发布并开源了其新一代旗舰模型，这是全球首个支持文本、图像、音频、视频全模态端到端交互的轻量化大模型。该模型以实现多模态能力全面突破，不仅在性能上超越同类闭源模型，更通过开源策略推动AI技术普惠化。

2025-04-01 19:19:55 1445 2

原创 AI一周热点事件（全球AI新闻-2025年3月24日至3月31日）

过去一周，AI及其相关领域在技术和商业层面上发生了多起重大事件，特别是在中国和美国。这些进展不仅展示了AI技术的快速迭代，也反映了中美两国在全球AI竞争中的战略布局。以下是详细分析，旨在为技术编辑提供全面的背景信息。

2025-04-01 14:00:55 4197

原创 [笔记.AI]大模型训练与向量值的关系

在预训练阶段（如BERT、GPT的初始训练），模型的嵌入层（Embedding Layer）作为可训练参数，通过反向传播不断优化。词汇“苹果”在初始时可能随机分布，但经过训练后，其向量会靠近“水果”或“公司”（取决于上下文频率）。通用语料训练的向量可能无法准确表示专业术语（如医疗词汇“化疗”需更接近“癌症”而非日常语境）。新词汇（如“元宇宙”）或词义变化（如“直播”从电视到互联网）需更新向量。：解冻所有模型参数（包括嵌入层），向量化的值会随新任务的数据调整。：“合同”等专业术语的向量会更贴近领域语义。

2025-03-29 18:25:18 540

原创 [笔记.AI]初始向量

这些初始向量是模型训练的基础，它们的生成方式直接影响模型的收敛速度和最终性能。使用公开的词向量库（如 Word2Vec 的 Google News 300 维向量，或 GloVe 的 50/100/200/300 维向量）。在某些场景中，模型会直接加载预训练的词向量（如 Word2Vec、GloVe）作为初始值，以加速训练或提升效果。将当前模型的词汇表与预训练词向量库的词汇表对齐，未对齐的 Token 仍随机初始化。适用于大规模预训练模型（如 GPT、BERT 的初始训练阶段）。

2025-03-29 18:05:06 1197

原创 [笔记.AI]向量化

是将文本、图像、音频等非结构化数据转换为高维数值向量（即一组数字）的过程。这些向量能够捕捉数据的语义、特征或上下文信息，使计算机能够通过数学运算（如相似度计算、聚类、分类等）处理和理解非结构化内容。

2025-03-29 17:54:10 693

原创 [笔记.AI]不同大模型的向量化结果差异

（下面借助 DeepSeek-V3 生成）。：例如，BERT-base 的嵌入维度为 768，而 GPT-3 的嵌入维度为 12288（通过多层堆叠实现），向量空间的结构完全不同。：BERT 使用双向注意力，生成的向量包含全局上下文信息；而 GPT 采用单向自回归，向量更侧重左侧上下文。：如 Transformer 层数越多（如 GPT-3 有 96 层），向量经过更多非线性变换，语义抽象程度更高。

2025-03-29 17:53:03 776

原创 DeepSeek-V3-0324 版本升级概要

模型改进与性能提升：推理能力增强：在多个基准测试中表现出显著提升，如MMLU-Pro从75.9提高到81.2，GPQA从59.1提高到68.4，AIME从39.6提高到59.4，LiveCodeBench从39.2提高到49.2。代码执行优化：提高了代码的可执行性，生成更加美观的网页和游戏前端界面。中文写作能力提升：增强了写作风格和内容质量，尤其在中长篇文章写作中表现更佳，对齐R1写作风格。功能增强：多轮交互重写：改进了多轮交互式的重写功能。翻译和写信优化：优化了翻译质量和写信功能。搜索功能增

2025-03-26 13:53:49 809

原创 [新闻.AI] Google DeepMind 发布 Gemini 2.5 Pro 模型

Gemini 2.5 是 Google DeepMind 在 2025 年 3 月 25 日发布的最新 AI 模型。该模型被定位为“思考模型”，能够在其生成响应前进行推理，从而提升性能和准确性。这一特性建立在之前的强化学习和链式思维提示技术之上，延续了 Gemini 系列的创新。

2025-03-26 13:33:12 1055

原创 AI一周热点事件（全球AI新闻-2025年3月17日至3月24日）

NVIDIA GTC 2025的公告展示了AI硬件和应用的最新进展，而美国AI立法的激增和公众讨论则反映了社会对AI影响的关注。随着AI继续融入各行各业，保持对这些发展的了解对于技术社区至关重要。

2025-03-25 14:17:34 932

原创 [新闻.AI]国产大模型新突破：阿里开源 Qwen2.5-VL-32B 与 DeepSeek 升级 V3 模型

在MMU、MMMU-Pro、MathVista等多模态基准测试中，32B版本甚至优于72B前代模型，并在MM-MT-Bench主观评估中实现显著进步。同时，其纯文本处理能力也达到同规模（如Mistral-Small-3.1-24B、Gemma-3-27B-IT）的最优水平157。：例如，通过分析交通指示牌照片，结合卡车限速、时间与距离，精确判断“1小时内能否行驶110公里”，展现视觉逻辑推导能力19。：32B模型成为多模态部署的“黄金尺寸”，而代码模型的优化则聚焦实用性与成本控制。

2025-03-25 13:26:55 1258

原创 [笔记.AI]多头自注意力机制（Multi-Head Attention）

多头自注意力最初由Vaswani等人在2017年的论文“Attention Is All You Need”中提出，标志着Transformer模型的诞生。该机制扩展了自注意力，允许模型通过多个并行“头”同时关注输入序列的不同部分。每个头可以学习捕获不同类型的依赖关系，例如短距离的语法结构或长距离的语义关联。根据的内容，多头注意力模块运行注意力机制多次，输出被连接并线性变换。直观上，多个头允许模型以不同方式关注序列部分，例如长距离依赖与短距离依赖。

2025-03-22 19:06:18 1256

原创 [思考记录]两则：宏观视角、理想化

昨天听金老师讲解了他初步整理的大模型宏观概念关系图，受益不少。图上不仅是涵盖了诸多概念，更厉害的应该在于把概念之间的关系进行了描述，更直观展现了概念是如何与其他概念相互作用的。帮助从整体的角度去理解，以及透过概念之间的联系去看到各个概念所处的位置、相互影响和作用关系。如果把“概念”比作“个体生物”，那么每个概念就像生态系统中一个独特的物种。而“概念关系图”就像是这些生物共同生活的“生态环境”，在这个生态环境中，生物之间是存在各种联系的。

2025-03-22 18:23:23 242

原创 [新闻.AI]OpenAI推出“下一代语音模型”（gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts）

OpenAI 于2025 年 3 月 20 日在API中推出“下一代语音模型”（三款新的语音模型：gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts）——提供语音转文本及文本转语音的能力，并具备领先的准确性和可靠性。支持用户通过自然语言与 AI Agent 系统深度交互，帮助提升客服中心、会议记录等复杂场景中的实用价值。（下面借助 Grok 3 生成）

2025-03-21 13:36:15 841

原创 AI一周热点事件（2025年3月10日至3月17日）

谷歌的Gemini AI应用更新谷歌在3月15日更新了其Gemini AI应用，扩展了自定义AI专家“Gems”的可用性，免费提供给18岁以上用户（不包括伊利诺伊州和德克萨斯州的某些用户）。更新包括研究助理功能、更深层次的个性化以及与Google应用（如Photos、Tasks、Calendar、Notes）的扩展连接。这些功能此前仅限于Gemini Advanced用户，现在对更多Google Workspace客户开放。

2025-03-18 13:52:24 1386

原创 [笔记.AI]数据集——大模型的“教科书” | 数据集的细分、作用和意义

这些是大型文本语料库，用于初始训练，使模型学习语言模式、语法和广泛的知识。预训练数据集通常规模巨大，例如The Pile有800 GB，Common Crawl涉及数TB的数据。

2025-03-15 19:02:07 1355

原创 [思考记录]关于AI辅助&独立思考

发现问题->请教AI->形成自己的理解和问题->AI->尝试落地实践。但手欠，去试着问了下AI，发现它的分析总结比我透彻。|-挑战AI的回答：拿到AI的分析后，试着反驳或补充，比如“如果情况变了，这个还成立吗？|-设定独立思考时间：在请教AI前，给自己15-30分钟先想一想，强迫自己尝试解决问题。|-保持独立：先自己思考，再用AI验证和扩展，最后通过实践消化成自己的东西。|-先自己思考，再用AI：确保你有自己的基础，而不是被动接受AI的答案。|-保持批判性：别把AI的回答当“标准答案”，要学会质疑和调整。

2025-03-15 18:51:54 246

原创 OpenAI 推出系列新工具，简化 AI Agent 的开发

可在Responses API中使用，适用于gpt-4o和gpt-4o-mini模型，包括引文支持。也在Chat Completions API中通过gpt-4o-search-preview和gpt-4o-mini-search-preview模型提供。在SimpleQA基准测试中，gpt-4o得分90%，gpt-4o-mini得分88%，相比没有搜索的GPT-4.5（63%）有显著提升。默认情况下，业务数据不会用于训练模型，详情见。提供实时信息和引文，支持gpt-4o和gpt-4o-mini。

2025-03-12 20:47:18 1249

原创 [笔记.AI]KAG（知识增强生成 Knowledge Augmented Generation）

KAG 被定义为一种结合大型语言模型（LLM）与知识图谱的框架，旨在通过结构化知识增强生成内容的准确性和相关性。根据的内容，KAG 整合了知识图谱的推理能力与 LLM 的语言生成灵活性，为专业领域（如医疗、法律和政府服务）提供了新的可能性。另一研究进一步强调了 KAG 在专业领域的应用潜力，特别是在处理复杂查询时。知识图谱是一种结构化知识表示，包含实体及其关系，为 KAG 提供了可靠的外部知识源。

2025-03-12 20:22:29 786

原创 [笔记.AI]MCP（Model Context Protocol 模型上下文协议）——AI的“USB-C接口”

MCP （Model Context Protocol）是一种开放协议，标准化了 AI 应用如何向 LLMs 提供上下文。它被比喻为 AI 应用的 USB-C 端口，提供了一种通用的连接方式，使 AI 模型能够与各种数据源和工具集成。例如，描述它为“一个开放协议，标准化了应用程序如何向 LLMs 提供上下文”，而强调其目标是帮助前沿模型产生更相关、更准确的响应。MCP（Model Context Protocol）于 2024 年 11 月发布，目前还处于早期发展阶段。

2025-03-12 14:38:19 1092

原创 [思考记录]工作于过去&为未来而工作

停留在“编码者”的工作方式已经属于过去式，而未来或许要转变为“问题解决者”和“创新者”。这就需要将关注点从单一功能的实现中跳出来，比如：去关心和思考产品整体、去理解整个系统的架构、结合业务知识和用户体验等，提出更有价值的解决方案和思路。又或者，基于AI工具思考探索新的工作流程、框架设计，以及其他新的可能性。这样，无疑也会提升个人的价值并带来更大的工作成就感。

2025-03-10 18:38:17 172

原创 OpenManus 开源项目介绍

OpenManus 是一个开源项目，旨在复制 Manus AI 代理的功能。Manus 是一个由中国团队开发的通用 AI 代理，擅长自主执行复杂任务，如旅行规划、股票分析等。根据，Manus 被描述为能够将思想转化为行动的 AI，特别是在工作和生活中的各种任务上。OpenManus 的目标是将这些能力带入开源社区，使开发者能够贡献和修改代码。从 GitHub 仓库和相关文章如，可以看出 OpenManus 是一个快速开发的原型，由 MetaGPT 的核心贡献者构建，仅用 3 小时就完成了初始版本。

2025-03-10 15:30:19 1221

Visual Basic 6 Client Websocket Control 1.11 BETA

空空如也