格兰芬多_未名-CSDN博客

全参数微调，一般称作参数高效微调，全参数微调空间、时间代价高，参数高效微调是指微调少量或额外的模型参数，固定大部分预训练模型（LLM）参数，从而大大降低了计算和存储成本，同时，也能实现与全量参数微调相当的性能。参数高效微调方法甚至在某些情况下比全量微调效果更好，可以更好地泛化到域外场景。PEFT全参数微调目标提高预训练模型在特定任务上的性能，使用有限的数据和计算资源提高预训练模型在特定任务上的性能，使用有限的数据和充足的计算资源训练时间较快较长计算资源较少较多模型参数。

2024-10-26 16:52:02 1214 1

原创大语言模型的Scaling Law【Power Low】

Scaling Law是人工智能和机器学习中一类理论，它描述了随着模型规模（例如参数数量）、训练数据量、计算资源的增加，模型性能如何提升的规律。简单来说，Scaling Law 研究的是模型性能与模型规模之间的关系。

2024-10-26 16:43:41 1459

原创深入理解熵、交叉熵、KL散度的概念及其差异

在机器学习和信息论中，熵、交叉熵和KL散度（Kullback-Leibler散度）是三个至关重要的概念。本文将详细介绍这些概念及其应用，可以更好地掌握模型优化过程中损失函数的意义，尤其在深度学习中，交叉熵和KL散度经常用于模型训练和概率分布估计。

2024-10-12 12:15:47 5975

原创 Transformer图文详解【Attention is all you need】

在理解了自注意力机制的基础上，我们来介绍大语言模型的基础——Transformer结构，Attention is all you need！

2024-07-21 20:20:18 1399

原创深入理解注意力机制【Self-Attention,自注意力模型】

本篇博客将详细介绍注意力机制的基本原理、一般形式以及自注意力模型，并通过具体例子和图示帮助读者更好地理解这些关键概念。让我们一起深入探索，看看注意力机制如何在自然语言处理任务中发挥神奇的作用。

2024-07-15 19:41:51 1833

原创详解注意力机制上篇【RNN,Seq2Seq(Encoder-Decoder,编码器-解码器）等基础知识】

本文介绍注意力机制相关的基础知识，如RNN,编码器-解码器的结构，以及什么是Embedding，为什么需要Embedding。通过实例能更好的帮助理解。

2024-07-15 19:33:20 1152

原创基于隐马尔可夫模型的股票预测【HMM】

本文探讨了利用隐马尔可夫模型（Hidden Markov Model, HMM）进行股票预测的建模方法，并详细介绍了模型的原理、参数初始化以及实验分析。

2024-07-01 22:18:01 2449

原创基于CNN的股票预测方法【卷积神经网络】

本文探讨了利用卷积神经网络（CNN）进行股票预测的建模方法，并详细介绍了模型的搭建、参数选择以及数据处理方法。

2024-07-01 21:22:25 2796

原创时间序列分析入门：概念、模型与应用【ARMA、ARIMA模型】

我们将全面探讨时间序列分析的基本概念和分类，深入理解平稳性及其检验方法，并介绍自回归模型（AR）、滑动平均模型（MA）、自回归滑动平均模型（ARMA）以及自回归积分滑动平均模型（ARIMA）的定义和应用。

2024-06-27 22:48:30 1843

原创基于强化学习DQN的股票预测【股票交易】

本文介绍利用强化学习的经典模型——DQN来进行对股票的建模和交易，实验结果表明，在简单的交易环境设置下，该模型能帮助我们在股票交易中赚钱。

2024-06-27 15:06:18 3735 1

原创强化学习:值函数近似【Deep Q-Network,DQN,Deep Q-learning】

DQN的提出是深度强化学习领域的重要里程碑，它展示了深度学习在强化学习中的巨大潜力，本文介绍强化学习中的值函数近似方法，以及经典的DQN模型。

2024-06-27 14:56:27 1447

原创 Mac系统suitesparse 安装错误【ld: warning: ignoring file ‘/opt/homebrew/Cellar/mpfr/4.2.1/lib/libmpfr.6.dyli

mac安装SuiteSparse常见错误

2024-05-16 17:40:21 1163

原创凸优化的对偶理论【对偶问题、互补松弛条件、KKT条件】

对偶理论总结：拉格朗日函数、对偶问题、弱对偶定理、强对偶性、互补松弛条件、KKT条件.

2024-05-16 17:30:38 4682 3

原创强化学习：时序差分法【Temporal Difference Methods】

本节介绍强化学习中经典的时序差分方法（Temporal Difference Methods，TD）。与蒙特卡洛(MC)学习类似，TD学习也是`Model-free`的，但由于其**增量形式**在效率上相较于MC方法具有一定的优势。

2024-05-06 17:00:12 1618 1

原创舒尔补【Schur Complement】

舒尔补（Schur complement）是线性代数中的一个重要概念，经常在矩阵理论、优化问题和数值计算中出现。舒尔补可以用来简化大型线性系统的求解和分析，特别是在稀疏矩阵和块矩阵的情况下。

2024-05-06 16:38:48 4539 2

原创强化学习实例分析:CartPole【蒙特卡洛方法】

本文基于gym库的cartpole环境来实现强化学习里的Monte Carlo 算法

2024-04-24 19:47:22 1669

原创强化学习多臂老虎机介绍【Multi-armed Bandits】

Bandit（老虎机、赌博机）问题是强化学习领域中的一个经典问题，老虎机是一种用于赌博的机器，下拉老虎机的机械手臂，我们可以随机获得一个奖励。在赌场中，我们常常能看见很多老虎机被摆在一排，我们可以选择去下拉其中任何一只手臂，在强化学习中我们称为多臂老虎机（Multi-armed Bandits)问题。

2024-04-24 14:29:45 4458

原创高斯过程回归【详细数学推导】

高斯过程回归（Gaussian Process Regression，简称GPR）是一种非参数的回归方法，它基于高斯过程（Gaussian Process）理论。在机器学习中，高斯过程是一种强大的工具，用于建模连续型的函数关系，特别适用于小样本的情况。

2024-04-22 18:23:31 8352

原创 Robbins-Monro(RM)算法【随机近似】

随机近似(Stochastic Approximation)是指用于解决寻根或优化问题的一类广泛的随机迭代算法。与许多其他求根算法(如梯度下降法、牛顿法)相比，随机近似的强大之处在于它不需要目标函数的表达式或其导数。Robbins-Monro (RM)算法是随机近似领域的开创性工作。

2024-04-22 14:47:52 3962 1

原创极大似然估计、最大后验估计、贝叶斯估计

本节我们介绍统计学中常用的三种参数估计方法：极大似然估计（MLE）、最大后验估计（MAP）以及贝叶斯估计.

2024-04-14 16:53:03 1994

原创蒙特卡洛方法（Monte Carlo）【强化学习】

前面介绍的值迭代和策略迭代算法，我们都假设模型已知，也就是环境的动态特性（比如各种概率）我们都预先知道。然而在实际问题中，我们可能对环境的动态特性并不是那么清楚，但是我们可以得到足够多的数据，那么我们同样可以用强化学习来建模解决这个问题，这类不利用模型的算法被称为`Model-free`的方法。`Monte Carlo`方法便是一种`Model-free`的方法。

2024-04-10 14:36:57 2237

原创强化学习实例分析：GridWorld【值迭代和策略迭代算法Python实现】

在前面的章节，我们探讨了强化学习中两个关键算法：值迭代和策略迭代的数学原理.本节我们在Gridworld的场景下实现Value iteration和Policy iteration这两个算法.

2024-04-10 13:20:06 3208 2

原创数值代数中的灵敏度分析【条件数】

在数值分析领域，灵敏度分析是一种用来评估数值模型对输入参数变化的敏感程度的技术。本文介绍数值分析中的条件数以及解线性方程组中的条件数。

2024-03-22 11:13:22 1469

原创值迭代和策略迭代【强化学习】

值迭代和策略迭代是强化学习中两种基本的方法，用于解决马尔可夫决策过程（MDP）的优化问题。它们都旨在找到一个最优的策略，以在给定环境下实现最大的累积奖励。

2024-03-22 10:26:18 2457

原创强化学习：贝尔曼最优方程【BOE】

上一节讲了贝尔曼方程，这一节继续在贝尔曼方程的基础上讲贝尔曼最优方程，后面的策略迭代和值迭代算法都是根据贝尔曼最优方程来的.

2024-03-21 09:04:23 1990 1

原创贝尔曼方程【Bellman Equation】

贝尔曼方程（Bellman Equation），也称为贝尔曼期望方程，用于计算给定策略π时价值函数在策略指引下所采轨迹上的期望。

2024-03-20 11:31:07 6887

原创熵、交叉熵、KL散度【详细理论推导】

熵是信息论中最基本、最核心的一个概念，它衡量了一个概率分布的随机程度，或者说包含的信息量的大小。假设随机变量取值为 x，对应的概率为 p(x)。直观来看，取这个值的可能性越小，而它又发生了，则包含的信息量就越大。也就是说，概率越小，信息量越大。例如，一年之内人类登陆火星，包含的信息量显然比广州明天要下雨大，因为前者的概率明显小于后者。因此如果定义一个函数 h(x)来描述随机变量取值为的信息量的大小的话，则h(x)应该是 p ( x )的单调减函数。满足单调递减要求的函数太多了,该选择哪个函数呢?

2024-03-19 11:48:59 1100