小森( ﹡ˆoˆ﹡ )-CSDN博客

原创 GPT_Data_Processing_Tutorial

本教程将带你一步步构建完整的数据处理管道，从原始文本到模型输入。我们将以GPT-2为例，理解现代LLM处理文本的核心原理。BytePair编码（BPE）是一种数据压缩算法，被OpenAI用于GPT系列模型。神经网络需要连续的数值输入，而不是离散的整数。嵌入层将token ID映射为高维向量。神经网络处理的是数字，不是文本。词汇表建立了token和唯一ID之间的映射关系。计算机无法直接理解文字，需要将文本切分成更小的单元，这些单元称为。

2025-10-04 22:31:47 1415 4

原创 Open_R1_Complete_Training_Guide

Open R1是由Hugging Face团队开发的完全开源的DeepSeek-R1复现项目，目标是构建R1推理管道中缺失的组件，让所有人都能复现和构建类似的推理模型。

2025-07-30 11:04:44 1265 9

原创 LangChain_从基础到高级

LangChain 的核心思想是链式操作（Chaining）- 将多个处理步骤通过管道操作符连接起来，形成一个完整的数据处理流水线。本部分通过手动构建链式操作和调试功能，让你深入理解每个步骤的数据变化过程。真实项目中，往往需要多个连续的处理步骤。本部分展示如何构建一个"生成内容→翻译→输出"的完整流水线。当需要对同一数据进行多角度分析时，并行处理能大大提高效率。本部分展示如何同时进行剧情分析和角色分析。真实应用中，往往需要根据输入内容的不同特征选择不同的处理路径。本部分展示如何构建智能的反馈处理系统。

2025-07-26 15:18:47 862

原创 MCP协议详细教程

Host：需要访问外部资源的AI应用（如Claude Desktop、Cursor或自定义代理）Clients：与服务器保持连接的连接器Servers：通过MCP协议公开功能（数据、工具、提示）的轻量级程序：MCP服务器可以访问的本地（文件、数据库）和远程服务（API）MCP内的通信使用基于WebSocket连接的JSON-RPC 2.0，确保组件之间的实时双向通信。构建了自己的MCP后，让我们尝试自己构建MCP Host和Client。

2025-07-25 09:35:38 1875 8

原创 LangChain聊天机器人教程

基础聊天功能和模型切换 💬`消息历史存储（内存 vs 云端）📝history.py内存存储- 临时存储，程序结束后消失 🧠云端存储- 使用 Google Firestore 持久化存储 ☁️🔧 LangChain基础使用- 消息类型、模型调用🔄 模型切换- 支持多种AI模型💾 存储策略- 内存 vs 云端存储🛠️ 实际部署- 环境配置和最佳实践现在你可以根据自己的需求选择合适的存储方式，构建属于自己的智能聊天机器人了！🎊。

2025-07-24 15:10:35 1179 16

原创 LangGraph基础教程

在 LangChain，致力于让构建大语言模型应用变得简单。你可以构建的一种大语言模型应用是智能体（agent）。构建智能体令人兴奋，因为它们可以自动化许多以前不可能完成的任务。在本课程中，我们将使用聊天模型输入：接受一系列消息输出：返回聊天消息Tavily是一个专为大语言模型和 RAG（检索增强生成）优化的搜索引擎。

2025-07-23 00:10:00 846 2

原创国内开源医疗模型研究报告

例如，华佗GPT通过融合ChatGPT生成的"蒸馏数据"和真实世界医生回复的数据，训练并开源了一个新的医疗大模型，能够提供更准确的医疗问诊服务[例如，华佗GPT通过融合ChatGPT生成的"蒸馏数据"和真实世界医生回复的数据，训练并开源了一个新的医疗大模型，能够在单轮与多轮问诊场景中提供更准确的诊断和治疗建议[京医千询是京东健康旗下的医疗大模型，是国内医疗行业首个全面开源的垂类大模型。未来，国内开源医疗模型将更加注重多模态融合技术的发展，整合更多的医疗数据模态，提供更全面、更准确的医疗AI服务。

2025-04-15 22:55:25 1659

原创 DeepResearch产品形态与发展研究报告

DeepResearch是一种AI驱动的智能研究工具，旨在解决复杂、知识密集型的研究任务。多步骤推理：基于高级推理模型（如OpenAI的o3或DeepSeek的R1），能够自主规划研究路径并调整方向。自动化搜索与整合：通过联网搜索，快速收集并分析海量在线数据，包括学术文献、行业报告、新闻资讯等。报告生成：将分散信息整合为结构化、专业化的研究报告，适用于学术研究、行业分析、投资决策等场景。个性化适配：根据用户输入的提示词或需求，提供定制化输出。

2025-03-06 09:38:58 2352 1

原创 LlamaIndex 应用完整指南

创建工具tools = [description="搜索文档内容"# 创建代理# 执行任务response = agent.chat("分析文档中的关键信息")

2025-03-04 16:46:36 2025 19

原创 DeepSeek 全面分析报告

DeepSeek 是一款由中国人工智能初创公司 DeepSeek 开发的大型语言模型 (LLM)，于 2025 年 1 月发布，迅速成为全球人工智能领域的一匹黑马。DeepSeek 不仅在性能上可与 OpenAI、Google 等巨头的模型相媲美，而且其训练成本和运行效率都显著优于竞争对手，引发了业界和市场的广泛关注。本报告将对 DeepSeek 进行全面分析，涵盖其公司概况、产品服务、技术优势、竞争格局、商业模式、财务状况以及未来发展前景等方面。

2025-02-22 11:06:14 3347 25

原创 GroK 3研究报告

当前，最强的大模型是。GroK 3 是目前最强的大模型，基于 Transformer 架构，结合混合模型技术，在长上下文和多模态任务中表现优异。混合模型如 Jamba（GroK 3 的基础）结合了 Transformer 和 SSM 的优势，特别是在长上下文任务中表现出色，适合企业级应用 (本报告将详细探讨 GroK 3 的架构、性能和与其他模型的比较，并分析其在行业中的应用。GroK 3 基于 Transformer 架构，结合了混合模型技术，特别是状态空间模型（SSM）的创新。

2025-02-20 14:09:35 2322

原创指针生成网络（PGN）详细指南（引入）

在每个时间步，解码器首先将上一步的输出通过一个嵌入层和dropout层，然后用注意力层计算当前隐藏状态对编码器输出的注意力权重。在实现上，注意力机制会为编码器的每个时间步的输出分配一个权重，然后基于这些权重计算一个上下文向量（Context Vector），作为解码器的附加输入。权重的计算通常基于解码器当前的隐藏状态和编码器各时间步的输出。在每个时间步,解码器根据上一步的输出、当前的隐藏状态和编码器的输出计算注意力权重,然后将注意力权重与编码器输出加权求和,得到一个上下文向量。

2025-01-23 10:38:28 1343 20

原创 Flash Attention V3使用

Flash Attention 是一种针对 Transformer 模型中注意力机制的优化实现，旨在提高计算效率和内存利用率。随着大模型的普及，Flash Attention V3 在 H100 GPU 上实现了显著的性能提升，相比于前一版本，V3 通过异步化计算、优化数据传输和引入低精度计算等技术，进一步加速了注意力计算。

2025-01-03 21:39:44 2737 37

原创训练基于Transformer的翻译任务模型

💥机器翻译是自然语言处理领域中的一个重要任务，它致力于将一种自然语言自动翻译成另一种自然语言。近年来，随着深度学习的发展，神经机器翻译（NMT）取得了显著进展，其中Transformer模型因其强大的表征能力和并行计算能力，成为机器翻译的主流模型。🤗构建一个基于Transformer的德语到英语翻译系统。通过训练Transformer模型，使其能够将输入的德语句子翻译成对应的英语句子。项目使用WMT14数据集进行训练，并在验证集上评估模型性能。

2024-12-30 13:19:32 1979 11

原创 LangChain大模型应用开发

💥我们使用 LangChain 构建的许多应用程序将包含多个步骤，其中包含多次调用 LLM 调用。随着这些应用程序变得越来越复杂，能够检查我们的链条或代理内部到底发生了什么变得至关重要。最好的方法是使用langSmith 来查看。我们使用LangChain的文档加载器、嵌入、向量库来从其他来源检索数据，与大模型工作集成，这对于获取数据作为模型推理的一部分进行推理的应用程序非常重要，例如检索增强生成或RAG。这样，我们只需传入一个问题即可检索相关信息，而无需了解文档中使用的任何特定关键术语。

2024-12-03 23:05:57 1656 57

原创 FastLLM高性能大模型推理库

【代码】FastLLM高性能大模型推理库。

2024-11-20 22:54:45 1066 47

原创详细介绍Transformer！

Multi-head Attention和单一head的Attention唯一的区别就在于, 其对特征张量的最后一个维度进行了分割, 一般是对词嵌入的embedding_dim=512进行切割成head=8, 这样每一个head的嵌入维度就是512/8=64, 后续的Attention计算公式完全一致, 只不过是在64这个维度上进行一系列的矩阵运算。多个头进行attention计算最后再综合起来，类似于CNN中采用多个卷积核的作用，不同的卷积核提取不同的特征，关注不同的部分，最后再进行融合。

2024-11-14 14:58:44 1600 64

原创 LLaMA-Factory全流程训练模型

我们在 LLaMA-Factory/examples下创建 train.yaml 文件，这是微调训练模型的配置文件。整个训练数据集被模型完整遍历的次数，一个 epoch 包含多个批次（batch）。模型参数梯度的范数，反映梯度的大小，用于监控梯度爆炸或梯度消失的问题。: 训练过程中总共计算的浮点运算次数（2906404 亿次浮点运算）。: 每秒处理的批次数（5.277 个批次/秒）。: 训练的总轮次（3.0 个 epoch）。: 训练过程中的平均损失值（1.0846）。随后会生成一些指引，默认安装就行。

2024-11-11 23:35:18 6395 53

原创词嵌入方法（Word Embedding）

首先, 如果所有参与训练的token被100%的[MASK], 那么在fine-tunning的时候所有单词都是已知的, 不存在[MASK], 那么模型就只能根据其他token的信息和语序结构来预测当前词, 而无法利用到这个词本身的信息, 因为它们从未出现在训练过程中, 等于模型从未接触到它们的信息, 等于整个语义空间损失了部分信息. 采用80%的概率下应用[MASK], 既可以让模型去学着预测这些单词, 又以20%的概率保留了语义信息展示给模型.：指定上下文窗口的大小为 5。

2024-11-06 15:37:59 2492 64

原创 vLLM推理部署Qwen2.5

借助vLLM，构建一个与OpenAI API兼容的API服务十分简便，该服务可以作为实现OpenAI API协议的服务器进行部署。适用于大批量Prompt输入，并对推理速度要求高的场景，吞吐量比HuggingFace Transformers高10多倍。它旨在提供高性能、低延迟的推理服务，并支持多种硬件加速器，如 GPU 和 CPU。现在的Ubuntu是最简单配置的，如果使用wget等命令，需要使用apt-get下载再使用。这是一款流行的文本生成Web界面工具，拥有多个交互界面，并支持多种模型后端。

2024-10-28 15:49:07 6909 53

原创 Chroma 向量数据入门

Chroma 使知识、事实和技能可插入 LLM，从而可以轻松构建 LLM 应用程序。。Chroma 使知识、事实和技能可插入 LLM，从而可以轻松构建 LLM 应用程序。Chroma是一个文档检索系统，它存储了一组文档以及它们相应的嵌入向量。当接收到嵌入向量后，Chroma会根据其内部的索引结构快速查找最相关的文档。

2024-09-26 16:38:10 2287 74

原创 Sentence Transformers 教程！

Sentence Transformers专注于句子和文本嵌入，支持超过100种语言。利用深度学习技术，特别是Transformer架构的优势，将文本转换为高维向量空间中的点，使得相似的文本在几何意义上更接近。

2024-09-23 17:22:22 6155 80

原创 Faiss向量数据库

Faiss（Facebook AI Similarity Search）向量数据库是由Facebook AI研究院开发的一种高效相似性搜索和聚类的库。Faiss不仅支持在高维空间中进行高效的相似性搜索，还能够在处理大规模数据集时展现出卓越的性能，尤其适用于图像检索、文本搜索、推荐系统和语音处理等多种应用场景。

2024-09-03 15:37:51 7444 113

原创 LLaMA Factory微调Llama3模型

是一款开源低代码大模型微调框架，集成了业界最广泛使用的微调技术，支持通过Web UI界面零代码微调大模型，目前已经成为开源社区内最受欢迎的微调框架。

2024-08-26 11:16:11 4067 98

原创 ChatGLM-6B微调推理实战

ChatGLM-6B是一个由清华大学和智谱AI联合研发的开源对话语言模型，它基于General Language Model（GLM）架构，具有62亿参数，并支持中英双语问答。结合模型量化技术，用户可以在消费级的显卡上进行本地部署。在INT4量化级别下，最低只需6GB显存即可运行。使用 pip 安装依赖：`pip install -r requirements.txt`，其中 `transformers` 库版本推荐为 `4.27.1`，但理论上不低于 `4.23.1` 即可。

2024-08-22 21:12:26 1366 76

原创如何为本地python共享文件网页配置公网地址实现跨网络远程访问

本文主要介绍如何在Windows系统电脑上使用python这样的简单程序语言，在自己的电脑上搭建一个共享文件服务器，并通过cpolar创建的公网地址，打造一个可以随时随地远程访问的私人云盘。数据共享作为和连接作为互联网的基础应用，不仅在商业和办公场景有广泛的应用，对于个人用户也有很强的实用意义。也正因如此，大量数据共享软件被开发出来，云存储的概念也被重复炒作。对于爱好折腾的笔者来说，用最简单的工具找寻私人共享和存储解决方案，也是件很有趣的事。

2024-08-08 21:54:42 1650 91

原创 Langchain--如何使用大模型 2.0

我们除了可以使用Langchain进行模型对话、提示词创作、嵌入模型，还可以使用其他的组件对大模型封装使用，打造我们自己的大模型。

2024-07-29 21:54:40 2385 27

原创 LangChain--如何使用大模型

LangChain是一个用于构建和管理语言模型链的开源框架，旨在帮助开发者更高效地构建和部署复杂的自然语言处理（NLP）应用。LangChain自身并不开发LLMs，它的核心理念是为各种LLMs实现通用的接口，把LLMs相关的组件“链接”在一起，简化LLMs应用的开发难度。

2024-07-28 11:38:12 4126 26

原创 MySQL数据库安装使用

Key-Value结构存储： Key-value数据库是一种以键值对存储数据的一种数据库，类似Java中的map。结构化查询语言(Structured Query Language)简称SQL，是关系型数据库管理系统都需要遵循的规范，是数据库认识的语句。找到系统变量中的path变量，点击编辑，选择新建，将刚才的赋值的mysql文件的地址粘贴到文本框中，点击确定，完成环境变量配置。MySQL是一个关系型数据库管理系统，目前属于 Oracle 旗下产品，MySQL 是最流行的关系型数据库管理系统中的一个。

2024-07-24 10:53:07 1437 27

原创【深度学习入门篇 ⑪】自注意力机制

将Query和Key分别计算相似性，然后经过softmax得到相似性概率权重，即注意力，再乘以Value，最后相加即可得到包含注意力的输出。：无论是源文本嵌入还是目标文本嵌入，都是为了将文本中词汇的数字表示转变为向量表示, 希望在这样的高维空间捕捉词汇间的关系。① 查询向量（Query向量）：被用来和其它单词的键向量相乘，从而得到其它词相对于当前词的注意力得分。② 键向量（Key向量）：序列中每个单词的标签，是我们搜索相关单词时用来匹配的对象。3个人工定义的重要概念，查询向量，键向量，值向量。

2024-07-23 09:32:09 1454 25

原创 Linux系统编程基础

借助虚拟化技术，我们可以在系统中，通过软件：模拟计算机硬件，并给虚拟硬件安装真实的操作系统。这样，就可以在电脑中，虚拟出一个完整的电脑，以供我们学习Linux系统。

2024-07-22 09:22:29 1174 17

原创 FastAPI入门

FastAPI是一个现代、快速的Python Web框架，用于快速构建API。它基于 Pydantic 和 Starlette，使得代码更加简洁且易于绶护。关键特性:快速：可与 NodeJS 和 Go 并肩的极高性能（归功于 Starlette 和 Pydantic）。最快的 Python web 框架之一。高效编码：提高功能开发速度约 200％至 300％。更少 bug：减少约 40％的人为（开发者）导致错误。智能：极佳的编辑器支持。处处皆可自动补全，减少调试时间。简单。

2024-07-21 14:03:57 1502 12

原创网络编程中的TCP和UDP

TCP( Transmission control protocol )即传输控制协议，是一种面向连接、可靠的数据传输协议，它是为了在不可靠的互联网上提供可靠的端到端字节流而专门设计的一个传输协议。面向连接：数据传输之前客户端和服务器端必须建立连接可靠的：数据传输是有序的要对数据进行校验Socket的英文原义是“孔”或“插座”，网络上的两个程序通过一个双向的通信连接实现数据的交换，这个连接的一端称为一个socket。

2024-07-21 08:25:44 1566 16

原创【深度学习入门篇 ⑩】Seq2Seq模型：语言翻译

今天我们进入 Seq2Seq 的领域，了解这种更为复杂且功能强大的模型，它不仅能理解词汇(Word2Vec)，还能把这些词汇串联成完整的句子。

2024-07-20 18:33:31 1326 18

原创【深度学习入门篇 ⑨】循环神经网络实战

今天我们看一下用循环神经网络RNN的原理并且动手应用到案例。

2024-07-18 21:40:13 1458 20

原创【深度学习入门篇 ⑧】关于卷积神经网络

Convolution，输入信息与核函数(滤波器)的乘积。

2024-07-17 20:23:56 825 8

原创【深度学习入门篇 ⑦】PyTorch池化层

池化层 (Pooling) 降低维度，缩减模型大小，提高计算速度. 即: 主要对卷积层学习到的特征图进行下采样（SubSampling）处理。

2024-07-16 21:23:18 1441 20

原创【深度学习入门篇 ⑥】PyTorch搭建卷积神经网络

卷积神经网络是深度学习在计算机视觉领域的突破性成果，在计算机视觉领域，往往我们输入的图像都很大，使用全连接网络的话，计算的代价较高；另外图像也很难保留原有的特征，导致图像处理的准确率不高。卷积神经网络（CNN）是含有卷积层的神经网络，卷积层的作用就是用来自动学习、提取图像的特征。CNN网络主要有三部分构成：卷积层、池化层和全连接层构成，其中卷积层负责提取图像中的局部特征；池化层用来大幅降低参数量级(降维)；全连接层类似人工神经网络的部分，用来输出想要的结果。

2024-07-15 12:09:02 1213 26

原创 Vue组件化编程

使用Vue.extend(options)创建，其中options和new Vue(options)时传入的那个options几乎一。

2024-07-14 11:27:59 1108 12

原创【深度学习入门篇 ⑤ 】PyTorch网络模型创建

今天我们学习PyTorch的网络模型创建，全面概括该怎么创建模型！

2024-07-14 11:23:15 1677 12

Group Sequence Policy Optimization播客

2025-08-17

机器学习中的梯度下降算法

梯度下降原理算法线性回归中，我们使用最小二乘法，能够直接计算损失函数最小值时的参数值，但是，最小二乘法有使用的限制条件，在大多数机器学习的使用场景之下，我们会选择梯度下降的方法来计算损失函数的极小值，首先梯度下降算法的目标仍然是求最小值，但和最小二乘法这种一步到位、通过解方程组直接求得最小值的方式不同，梯度下降是通过一种“迭代求解”的方式来进行最小值的求解，其整体求解过程可以粗略描述为，先随机选取一组参数初始值，然后沿着某个方向，一步一步移动到极小值点。梯度下降法的基本思想可以类比为一个下山的过程：一个人被困在山上，需要从山上下来，然后寻找这个位置最陡峭的地方，然后朝着山的高度下降的地方走。

2024-05-28

虚拟机开不了机怎么解决呀

2023-09-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人