AI人工智能_小马过河R的博客-CSDN博客

AI人工智能

关注

文章平均质量分 90

关注数：文章数：31 文章阅读量：44480 文章收藏量：579

作者: 小马过河R

2006年美国周刊年度风云人物 2008年感动中国组委会特别大奖 2009年年度地球卫士奖 2012年世界末日生存者 2022年奥林匹克杯获得者 2023年《狂飙》电视剧观看者

展开

模型上下文协议（Model Context Protocol，MCP）初见概念篇

模型上下文协议（Model Context Protocol，MCP），是由 Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。模型上下文协议协议是专为高效获得模型所需要上下文信息而设计的通用接口，可以将推动大语言模型应用的标准化和去中心化。

原创 2025-05-01 06:36:48 · 676 阅读 · 1 评论
如何控制DeepSeek的输出内容之AI时代的流量入口GEO

如何控制DeepSeek的输出内容？”、“有人已经开始在干预和污染AI搜索的爬取内容啦！”、“如何让你的产品信息被AI大模型推荐？”…最新总是听到如上类似的信息，在这个AI盛行的时代，一些新的问题挑战产生了，同时一些新的机遇也产生了。传统的 SEO 依赖于关键词排名和反向链接，而生成引擎优化（GEO)优先考虑结构化内容、实体识别和信任信号。适应人工智能驱动的搜索需要转变策略。那么这又是说的什么呢？我们又该如何做呢？小马进行了一番整理并尝试用通俗的方式和大家一起分享一下。

原创 2025-04-26 12:38:29 · 857 阅读 · 0 评论
声音识别（声纹识别）和语音识别的区别

综上，声音识别不注重语音信号的语义，而是从语音信号中提取个人声纹特征，挖掘出包含在语音信号中的个性因素。语音识别注重识别语音内容，声音识别（声纹识别）注重提取并识别个人声纹特征。声音识别的准确性依赖于信号质量、特征提取算法及模型训练数据量‌。例如，听歌识曲通过短时音频指纹匹配实现快速识别‌，而声纹识别则利用音色、频率等生物特征进行身份验证‌。

原创 2025-04-20 11:35:25 · 1205 阅读 · 2 评论
如何实现语音智能客服（二）

TTS（Text To Speech）是一种通过技术手段将文本信息转换为自然语音输出的技术，属于语音合成（Speech Synthesis）的核心应用领域‌。基本定义‌TTS全称为“从文本到语音”，通过计算机程序或专用设备将文字内容转化为可理解的语音信号，实现文字与语音的无缝转换‌。工作原理‌文本预处理‌：对输入文本进行清洗（如去除冗余符号）和标准化处理‌；声学建模‌：利用语音合成模型（如神经网络）将词汇转换为声学特征（频率、音调等）‌；

原创 2025-04-13 18:35:37 · 771 阅读 · 0 评论
如何实现语音智能客服（一）

输入：语音/音频信号；输出：结构化文本‌。支持场景：实时字幕生成、语音输入法、智能助手交互（如 Siri、Alexa）‌。

原创 2025-04-13 12:14:22 · 753 阅读 · 0 评论
通俗理解CLIP模型如何实现图搜图乃至文搜图

图搜图和文搜图的场景相信大家并不少见，比如度娘的搜索框就可以直接上传图片找到相似的图片，还有某宝某团都有这种上传图片匹配到相似商品或者商品页的推荐的功能。那比如我想搜一张“正在跳舞的狗”的图片，是不是就能搜出来呢？我们可以看到搜是搜出来了，但是基本图片的标题都涵盖了关键字“跳舞”、“狗”等。那么问题来了，度娘的图片搜索用的是图片标签的关键词匹配还是深度学习的文搜图？这个小马目前也不得而知，但丝毫不影响今天的主题。

原创 2025-04-11 17:47:19 · 947 阅读 · 1 评论
AI算法大全初见面

小马最近在，也遇到了不少算法相关的考题，回过头来还是需要系统学习和深挖一下算法的，以前也简单整理过。以前只是需要用什么学什么，现在发现终归还是要还的。于是咱们还是先从整体到局部一步步剥开AI算法这道大门吧。人工智能（AI）算法种类繁多，涵盖从基础机器学习到前沿深度学习、强化学习等多个领域。

原创 2025-04-04 11:55:33 · 899 阅读 · 2 评论
自编码器AE、变分自编码器VAE、对抗生成网络GAN、Transformer放一起来看！

AE是一种强大的无监督学习工具，广泛应用于数据降维、特征提取、去噪和重建等任务。通过编码器和解码器的协作，Autoencoder能够学习到输入数据的低维表示，并在许多领域（如图像处理、自然语言处理）中发挥重要作用。AE主要用于数据的压缩与还原，在生成数据上使用VAE（如上图）；AE是将数据映直接映射为数值code，而VAE是先将数据映射为分布，再从分布中采样得到数值code；VAE的缺点是生成的数据不一定那么“真”，如果要使生成的数据“真”，则要用到GAN。

原创 2025-04-04 11:55:00 · 965 阅读 · 0 评论
知识图谱初相识（概念理解篇）

知识图谱是以图结构为核心的语义网络，通过节点实体/概念）和边关系）的关联关系，结构化描述现实世界的知识体系‌。其本质是通过图模型实现知识的可视化表达与计算机可理解的语义化推理能力‌，支持从数据到知识的跃迁‌。通俗的讲就是存储关联关系，之后可以在此基础上进行一系列的规则计算和推理计算。凡有涉及到关系关系的都比较适用知识图谱。

原创 2025-03-29 16:46:41 · 883 阅读 · 1 评论
薅的人工智能证书Certificate

人工智能证书薅一下

原创 2025-03-29 12:07:49 · 370 阅读 · 1 评论
图解“AI大模型蒸馏技术”！

不仅培养他的过程很耗时耗力（训练成本高），请他过来讲课成本也很高，要有很大一笔安家费（部署模型的硬件基础设施，甚至数据中心），还要支付超高的课时费（推理成本高）。适用于企业自身积累了大量知识库文档，通过RAG的方式，与大模型关联。除了输出层蒸馏，还有中间层蒸馏（也叫特征层蒸馏），不仅学到最终判断的结论，还学习老师对图像/文本的内部理解，更深入地继承老师的“知识结构”。这种方式操作起来最简单，即便教师模型不开源，你拿不到教师模型，只要能调用他的API，看到老师的知识输出，就可以模仿他，蒸馏出自己的小模型。

转载 2025-03-26 16:30:38 · 66 阅读 · 0 评论
Manus和DeepSeek的区别

前段时间，Manus一夜爆火，号称全球首款自主AI Agent（智能代理）产品，甚至都提到了和DeepSeek相提并论的高度。对此小马的拙见还真不敢苟同。万万没想到的是，到如今事情已经过去大半个月了，各大媒体还在持续报道相关关键词，甚至不乏一些权威核心媒体。那还是来一起看看吧，分享一下小马的观点。

原创 2025-03-23 17:17:06 · 998 阅读 · 1 评论
AI存在伦理问题吗

人工智能（AI）确实存在广泛的伦理问题，涉及技术设计、应用场景和社会影响等多个层面。

原创 2025-03-20 14:52:58 · 666 阅读 · 0 评论
如何让大模型的回答带上信源索引标注来源

LongCite是一个旨在使LLMs（大语言模型）能够在长上下文问答（Long-Context Question Answering, LQAC）中生成细粒度引用（fine-grained citations）的技术。该技术的核心目标是提高LLMs在生成回答时的可信度和可验证性，通过在回答中添加精确到句子级别的引用，使用户能够更容易地验证模型的输出信息。《LongCite: 让LLM在长上下文问答中生成细粒度引用》仓库：https://github.com/THUDM/LongCiteLongCite通过。

原创 2025-03-20 14:21:57 · 1499 阅读 · 5 评论
看看这篇DeepSeeK R1写的《哪吒2》影评什么水平

在片尾彩蛋中，手持罗盘的姜子牙出现在元宇宙招聘会现场，这个充满荒诞感的场景，恰是整部电影的精神注脚。敖丙与龙族的和解过程，揭示了原生家庭创伤的代际传递机制。心理咨询师出身的编剧团队，特意设计了"龙珠记忆回溯"的情节装置，让敖丙在虚拟现实中目睹父亲被镇压的创伤记忆，这种叙事策略巧妙地将东方轮回观与现代心理学融合。当太乙真人用3D生物打印技术为哪吒重塑肉身时，闪烁的DNA双螺旋与电路板纹路在显微镜下交织，这个长达2分钟的特写镜头，提出了触及灵魂本质的终极追问：当机械义肢替换率超过51%，人类是否还能保持本真？

原创 2025-03-06 12:49:24 · 839 阅读 · 0 评论
DeepSeek R1核心原理GRPO算法详解

模型的更新迭代实在是太快了，就在今天早上，阿里的千问发布推理模型号称媲美R1。那么对R1核心原理还比较模糊的同学，我们还是一起回头整理下对DeepSeek的核心原理GRPO算法的理解吧。

原创 2025-03-06 12:29:02 · 1342 阅读 · 0 评论
人工智能发展全景与DeepSeek-R1

▸ 跨模态分析：CT影像+基因数据联合诊断（准确率提升37%）▸ 工厂数字孪生：实时优化生产线（故障预测响应时间<50ms）▸ 训练能耗：相比同类模型降低58%（采用光子计算芯片）▸ 推理成本：每百万token费用$0.12（行业最低）▸ 通用人工智能（AGI）达成率评估指数达L4级。▸ 神经形态芯片量产（能效比提升1000倍）▸ 数学能力：IMO竞赛题准确率89.7%▸ AGI实现：L3级（仍需5-8年）▸ 首个开源万亿模型（LAION联盟）▸ 互联网数据爆发（ZB级）▸ 发布时间：2025年Q1。

原创 2025-02-26 21:12:15 · 887 阅读 · 0 评论
如何根据模型参数推算出部署所需要多大的GPU

激活值内存取决于模型结构、批次大小（Batch Size）和序列长度（Sequence Length）。要根据模型参数推算所需的GPU显存，需综合考虑参数存储、中间激活值、推理缓存及框架开销。：24GB显存（如RTX 4090/A10G）或通过量化降低需求。预留20%~30%显存应对框架预分配、临时缓冲区等开销。

原创 2025-02-18 17:32:10 · 1557 阅读 · 0 评论
什么是强化学习

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）是一种结合人类偏好与强化学习的技术，旨在训练AI系统更符合人类价值观和意图。

原创 2025-02-18 14:57:03 · 738 阅读 · 5 评论
OCR与多模态大模型的关系

OCR（光学字符识别）的基本原理可分为传统方法和现代方法，核心目标是将图像中的文字转换为可编辑的文本。IcleanFilterInoisyIbinaryThresholdIgrayP字符∣特征HMM输出yCRNNxP正确文本∣候选N-gram概率综上，OCR基本原理通过图像处理、特征分析和模式识别实现文字转换，现代方法的核心已转向神经网络驱动的端到端学习。

原创 2025-02-06 09:58:40 · 1638 阅读 · 2 评论
一文搞懂深度学习

深度学习是机器学习的进阶分支，专用于解决传统机器学习难以处理的复杂问题。机器学习更侧重“广义的数据建模”，而深度学习聚焦“多层神经网络的自动化学习”。示例用机器学习预测房价：线性回归分析历史数据中的面积、位置等因素。用深度学习识别人脸：CNN模型自动从像素中学习眼睛、鼻子等特征组合。RNN 是一种强大的序列数据处理工具，但其训练和优化需要特别注意梯度问题。通过引入 LSTM 和 GRU 等变体，可以更好地处理长序列数据。

原创 2025-02-06 09:53:47 · 2442 阅读 · 2 评论
探索DeepSeek：幻方量化的AI创新之路

DeepSeek系列模型通过创新的架构设计、先进的技术手段和高效的训练方法，在自然语言处理和文本生成领域取得了显著成果。其核心的MoE架构、Transformer架构以及MLA、MTP等关键技术，使模型在处理复杂任务时表现出色。未来，DeepSeek有望在更多领域发挥其强大的AI能力，持续推动人工智能技术的发展。

原创 2025-02-01 12:37:39 · 2501 阅读 · 0 评论
大模型元年：人工智能的“寒武纪大爆发”

大模型，作为这场风暴的核心，以其强大的通用性和创造性，宣告着人工智能“寒武纪大爆发”的到来，开启了人工智能发展的新纪元——大模型元年。而大模型则打破了这种局限，它通过海量数据和强大的算力，学习到了更通用、更本质的知识和规律，从而具备了处理多种任务的能力。无论是生成逼真的图像、创作动听的音乐，还是编写引人入胜的故事，大模型都展现出了令人惊叹的创造力。大模型的崛起，为人类社会带来了前所未有的机遇。我们可以预见，在不久的将来，大模型将成为我们生活中不可或缺的一部分，为人类社会带来更加深刻的变革。

原创 2025-01-29 16:25:18 · 197 阅读 · 0 评论
DeepSeek暴击美股后除夕还在卷

DeepSeek暴击美股后除夕还在卷

原创 2025-01-29 13:43:24 · 1207 阅读 · 20 评论
LangChain-Chatchat初见面

(原Langchain-ChatGLM)基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现，开源、可离线部署的 RAG 与 Agent 应用项目。一种利用LangChain思想实现的基于本地知识库的问答应用，目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。

原创 2024-11-23 11:53:11 · 1938 阅读 · 0 评论
LangChain与Agent实现

LangChain是一个开源框架，旨在帮助开发人员使用大型语言模型（LLMs）构建应用程序。它通过提供一系列工具、组件和接口，简化了创建由LLMs和聊天模型提供支持的应用程序的过程。有网友猜测，之所以选择鹦鹉作为 LangChain 的 logo，是因为大模型常被戏称为“随机鹦鹉”，即它只是模仿人类输出的文本，缺乏真正的理解能力。而 LangChain 则别出心裁地将鹦鹉（🦜）与链条（🔗）组合在一起，寓意其在提高大模型能力方面的作用。

原创 2024-11-22 09:42:34 · 2441 阅读 · 0 评论
一文搞懂什么是AI Agent

AI Agent，即人工智能代理，又叫“AI 智能体”，AI 业界对智能体提出了各种定义。个人理解，Agent是一种能够感知环境、进行自主理解、决策和执行动作的智能实体计算机程序它基于大语言模型（LLM），具备自主理解、感知、规划、记忆和使用工具的能力，能自动化执行复杂任务。有一段描述非常形象，在这里引用分享给大家。大语言模型很强大，就像人类的大脑一样拥有思考的能力。如果人类只有大脑，没有四肢，没有工具，是没办法与世界互动的。如果我们能给大模型配备上四肢和工具呢？

原创 2024-11-21 12:53:53 · 7520 阅读 · 0 评论
深度学习初见面

深度学习（Deep Learning）‌是一种基于深层神经网络模型和方法的机器学习技术。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。深度学习是一种模仿人脑神经网络处理大量数据并解决复杂问题的算法技术。它通过构建多层神经网络，自动从原始数据中学习特征和模式，实现对复杂数据的高层次抽象和理解。

原创 2024-10-24 10:14:23 · 894 阅读 · 0 评论
在windows部署ChatGLM-6B

如何本地离线部署大语言模型

原创 2024-09-03 10:06:38 · 1238 阅读 · 6 评论
模型微调（Fine-tuning）实践

本文主要阐述微调原理和各参数的意义以及如何进行微调，旨在互相学习快速上手微调任务。

原创 2024-06-15 12:03:26 · 3760 阅读 · 13 评论
大模型微调实战保姆级详细教程手册

大模型的微调操作步骤都大相径庭，本文对chatGLM-6b P-Tuning v2和Baichuan2 QLoRA的详细微调步骤进行介绍，希望能抛砖引玉，供大家学习借鉴。

原创 2024-09-22 22:27:55 · 1969 阅读 · 3 评论

AI人工智能

作者: 小马过河R

模型上下文协议（Model Context Protocol，MCP）初见概念篇

如何控制DeepSeek的输出内容之AI时代的流量入口GEO

声音识别（声纹识别）和语音识别的区别

如何实现语音智能客服（二）

如何实现语音智能客服（一）

通俗理解CLIP模型如何实现图搜图乃至文搜图

AI算法大全初见面

自编码器AE、变分自编码器VAE、对抗生成网络GAN、Transformer放一起来看！

知识图谱初相识（概念理解篇）

薅的人工智能证书Certificate

图解“AI大模型蒸馏技术”！

Manus和DeepSeek的区别

AI存在伦理问题吗

如何让大模型的回答带上信源索引标注来源

看看这篇DeepSeeK R1写的《哪吒2》影评什么水平

DeepSeek R1核心原理GRPO算法详解

人工智能发展全景与DeepSeek-R1

如何根据模型参数推算出部署所需要多大的GPU

什么是强化学习

OCR与多模态大模型的关系

一文搞懂深度学习

探索DeepSeek：幻方量化的AI创新之路

大模型元年：人工智能的“寒武纪大爆发”

DeepSeek暴击美股后除夕还在卷

LangChain-Chatchat初见面

LangChain与Agent实现

一文搞懂什么是AI Agent

深度学习初见面

在windows部署ChatGLM-6B

模型微调（Fine-tuning）实践

大模型微调实战保姆级详细教程手册