Learn Forever-CSDN博客

转载【NLP】RNN模型构建⼈名分类器

模型训练的损失降低快慢代表模型收敛程度, 由图可知, 传统RNN的模型收敛情况最好, 然后是GRU, 最后是LSTM, 这是因为: 我们当前处理的⽂本数据是⼈名, 他们的⻓度有限, 且⻓距离字⺟间基本⽆特定关联, 因此⽆法发挥改进模型LSTM和GRU的⻓距离捕捉语义关联的优势. 所以在以后的模型选⽤时, 要通过对任务的分析以及实验对⽐, 选择最适合的模型.LSTM. 构建GRU模型的类class GRU.构建传统的RNN模型的类class RNN.构建传统RNN训练函数trainRNN.

2025-06-09 12:53:05 8

转载【NLP】seq2seq模型架构实现英译法

调⽤训练函数并打印⽇志和制图损失曲线分析: ⼀直下降的损失曲线, 说明模型正在收敛, 能够从数据中找到⼀些规律应⽤于数据。过滤出符合我们要求的语⾔对对以上数据准备函数进⾏整合, 并使⽤类Lang对语⾔对进⾏数值映射。第五步: 构建模型评估函数, 并进⾏测试以及Attention效果分析.第⼆步: 对持久化⽂件中数据进⾏处理, 以满⾜模型训练要求.第三步: 构建基于GRU的编码器和解码器.第四步: 构建模型训练函数, 并进⾏训练.构建基于GRU和Attention的解码器。构建基于GRU的解码器。

2025-06-06 12:38:14 20

转载【NLP】Seq2Seq

Seq2Seq 模型为处理变长序列提供了一种有效的方式，它通过编码器和解码器的架构，结合注意力机制，进一步提升了多种任务的性能。这种模型在机器翻译和其他序列生成任务中得到了广泛应用。

2025-06-05 12:42:05 15

转载【NLP】Teacher Forcing

教师强迫是一种有效的训练策略，可以加速 Seq2Seq 模型的收敛，同时减少模型在生成过程中因错误产生的连锁反应。然而，在使用教师强迫时，开发者需要平衡其优缺点，以便确保模型在实际应用中的有效性。理解如何在模型中实现和调整教师强迫是提升生成模型性能的重要一步。

2025-06-04 15:05:53 14

转载【神经网络】感知机

随机梯度下降法的速度快，相比于批量梯度下降法，随机梯度下降是随机优化某一条训练数据上的损失函数，这样每一轮参数的更新速度就会大大加快，并且更有利于避免局部最优解，找到全局最优解的可能性大大增加。三维中，存在许多点（数据集中的正负实例点一一对应），存在一个平面能将这些点分开，并且一边是正的，一边是负的。通过训练数据集（实例的特征向量及类别），求得感知机模型，这里求出的是参数w和b，然后再输入一个新的实例，通过感知机预测从而给出相应的输出类别。其他的什么都不管，吃什么，累了咋办，天气咋样，不管，通通不管。

2025-06-03 09:15:29 10

原创【Ollama】windows部署ollama并运行模型

官网：https://ollama.com/

2025-05-31 10:47:46 194

原创【Prompt】Prompt介绍与示例

【代码】【Prompt】Prompt介绍与示例。

2025-05-26 09:04:06 444

原创【大模型微调】Qwen2.5-7B 微调行业模型

Qwen2.5-7B-Instruct 可以通过HuggingFace 下载，也可使用hf-mirror ，官网链接：https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct执行如下指令进行模型下载：cd /root/下载完成后查看文件rm -rf .git 清除掉.git目录，避免数据盘空间不足。

2025-05-21 09:01:23 474

原创【大模型】部署

(base) inspur@root:~/.cache/modelscope/hub/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B$

2025-03-27 16:47:24 188

转载 4A架构设计

2024-12-10 08:59:37 73

转载汽车集团企业ERP规划方案

2024-11-07 09:26:50 87

原创【windows】字体安装手册

百度搜索XXX字体ttf文件进行下载附：宋体gb2312下载地址： https://www.downza.cn/soft/7780.html。

2024-06-21 18:34:24 501

转载【大模型】Sora关键技术逆向工程图解 | 万字长文

Sora 生成的视频效果好吗？确实好。Sora 算得上 AGI 发展历程上的里程碑吗？我个人觉得算。我们知道它效果好就行了，有必要知道 Sora 到底是怎么做的吗？我觉得最好是每个人能有知情的选择权，任何想知道的人都能够知道，这种状态比较好。那我们知道 Sora 到底是怎么做出来的吗？不知道。马斯克讽刺 OpenAI 是 CloseAI，为示道不同，转头就把 Grok 开源了。且不论 Grok 效果是否足够好，马斯克此举是否有表演成分，能开源出来这行为就值得称赞。OpenAI 树大招风，目前被树立成技术

2024-04-16 12:55:24 406

转载【大模型】图文详解Transformer为什么如此强大

比如，在句子 “The black cat drank the milk” 中，单词 “milk” 与 “drank” 非常相关，与 “cat” 稍微不那么相关，而与 “black” 无关。我们希望 “milk” 和 “drank” 之间产生高分数，“milk” 和 “cat” 之间产生略低的分数，而 “milk” 和 “black” 之间的分数则接近于零。换句话说，它会以这样的方式学习这些嵌入和权重：如果句子中的两个单词彼此相关，那么它们的向量就会对齐，从而产生较高的注意力分数。

2024-04-16 12:52:06 1108

转载【大模型】杨立昆：目标驱动AI才是未来

2024-04-16 12:46:28 329

原创【Python】conda安装

访问Anaconda的下载页面（https://www.anaconda.com/products/distribution），选择适合Windows的版本（64位或32位），然后下载。5.可以选择将Anaconda添加到系统的环境变量中，以便可以直接在命令行中使用conda命令。安装完成后，可以选择立即启动Anaconda Navigator或者稍后手动启动。可以选择安装时安装Microsoft VSCode编辑器，也可以稍后单独安装。4.按照安装向导的指示进行操作。3.打开下载的安装文件。

2024-04-04 17:49:52 445

原创【Spring】Spring状态机

先来解释什么是“状态”（ State ）。现实事物是有不同状态的，例如一个自动门，就有 open 和 closed 两种状态。我们通常所说的状态机是有限状态机，也就是被描述的事物的状态的数量是有限个，例如自动门的状态就是两个 open 和 closed。状态机，也就是 State Machine ，不是指一台实际机器，而是指一个数学模型。说白了，一般就是指一张状态转换图。例如，根据自动门的运行规则，我们可以抽象出下面这么一个图。

2024-03-08 08:19:59 1285

原创【大模型】大模型相关动态

llm

2024-02-23 15:58:06 4537

原创【大模型】大模型基础知识

GPT是[Generative Pre-trained Transformer]的缩写，意为生成式预训练变换器.G 代表 Generative (生成式): 这是一种机器学习模型，其目标是学习数据的分布，并能生成与训练数据相似的新数据。在自然语言处理 (NLP)领域，生成式模型可以生成类似于人类所写的文本。GPT模型作为一个生成式模型，能够根据给定的上下文生成连贯的文本。

2024-02-19 20:16:55 1498

原创【Python】 python简介&开发环境

【Python】 python简介&开发环境

2024-01-09 08:52:03 595

原创【供应链】仓储、物流、车辆管理

【供应链】仓储、物流、车辆管理

2023-10-25 09:02:15 299

原创【管理】标准化管理&5S质量管理

【管理】标准化管理&5S质量管理

2023-10-25 08:39:16 333

原创【Kettle】Kettle部署与运行

【Kettle】kettle部署与运行

2023-09-29 10:22:37 1103

原创【Ubuntu】Ubuntu20.04 常用软件部署

【Ubuntu】Ubuntu常用软件部署

2023-08-29 08:55:00 1439

原创【大数据】大数据&人工智能应用案例

项目01:物品画像构建（Spark、Python、Tensorflow）特征自动组合：Deep&Cross、XDeepFM、PNN。序列推荐模型：DIN、DIEN、AttRes、Stamp。Hadoop从0-1实现百万用户聚类的lbs区域热点推荐。Spark实现Graph Embedding的实现。Hadoop、Hive、Spark等工具使用。标签权重的计算方法（贝叶斯平滑、时间衰减）Embedding与稀疏ID类特征的关系。项目08:基于大数据的LBS区域推荐。FM模型详解、业界使用方法与坑。

2023-08-09 10:37:01 455