- 博客(55)
- 收藏
- 关注

原创 强化学习入门:基本概念【MDP、策略、价值函数】
本文介绍强化学习的基本概念,马尔可夫决策过程、回报、策略、价值函数(state value function and action value function)
2024-03-20 11:24:46
3618
原创 Actor-Critic方法【A2C,A3C,Policy Gradient】
本文在介绍基于策略梯度【Policy Gradient】的 Actor-Critic 方法,包括QAC,A2C,A3C算法的基本思想和原理,以及算法框架.
2024-11-07 17:45:52
1647
原创 策略梯度方法【Policy Gradient】
本文详细介绍策略梯度方法(Policy Gradient),将详介绍最优策略的度量函数,策略梯度定理,以及第一个策略梯度算法——REINFORCE算法.
2024-11-07 14:34:03
1468
原创 深度学习优化器【学习率调整和梯度修正,Optimizer】
在当今快速发展的人工智能领域,优化算法在深度学习模型(比如语言大模型)的训练过程中尤为重要。本文主要介绍与随机梯度下降法相关的两个技巧——学习率调整和梯度修正方法。
2024-10-28 16:11:17
1982
2
原创 BERT语言模型详解【Encoder-Only】
传统的语言模型,如标准的自回归模型,通常只能基于从左到右或从右到左的单向上下文生成文本。BERT创新性地引入了“掩蔽语言模型”(MLM),它会随机遮盖输入句子中的某些词,然后让模型预测这些被遮盖的词,从而实现了对句子中双向上下文的理解。
2024-10-28 16:06:41
1683
原创 大语言模型微调方法详解【全量微调、PEFT、LoRA、Adapter】
全参数微调,一般称作参数高效微调,全参数微调空间、时间代价高,参数高效微调是指微调少量或额外的模型参数,固定大部分预训练模型(LLM)参数,从而大大降低了计算和存储成本,同时,也能实现与全量参数微调相当的性能。参数高效微调方法甚至在某些情况下比全量微调效果更好,可以更好地泛化到域外场景。PEFT全参数微调目标提高预训练模型在特定任务上的性能,使用有限的数据和计算资源提高预训练模型在特定任务上的性能,使用有限的数据和充足的计算资源训练时间较快较长计算资源较少较多模型参数。
2024-10-26 16:52:02
1214
1
原创 大语言模型的Scaling Law【Power Low】
Scaling Law是人工智能和机器学习中一类理论,它描述了随着模型规模(例如参数数量)、训练数据量、计算资源的增加,模型性能如何提升的规律。简单来说,Scaling Law 研究的是模型性能与模型规模之间的关系。
2024-10-26 16:43:41
1459
原创 深入理解熵、交叉熵、KL散度的概念及其差异
在机器学习和信息论中,熵、交叉熵和KL散度(Kullback-Leibler散度)是三个至关重要的概念。本文将详细介绍这些概念及其应用,可以更好地掌握模型优化过程中损失函数的意义,尤其在深度学习中,交叉熵和KL散度经常用于模型训练和概率分布估计。
2024-10-12 12:15:47
5975
原创 Transformer图文详解【Attention is all you need】
在理解了自注意力机制的基础上,我们来介绍大语言模型的基础——Transformer结构,Attention is all you need!
2024-07-21 20:20:18
1399
原创 深入理解注意力机制【Self-Attention,自注意力模型】
本篇博客将详细介绍注意力机制的基本原理、一般形式以及自注意力模型,并通过具体例子和图示帮助读者更好地理解这些关键概念。让我们一起深入探索,看看注意力机制如何在自然语言处理任务中发挥神奇的作用。
2024-07-15 19:41:51
1833
原创 详解注意力机制上篇【RNN,Seq2Seq(Encoder-Decoder,编码器-解码器)等基础知识】
本文介绍注意力机制相关的基础知识,如RNN,编码器-解码器的结构,以及什么是Embedding,为什么需要Embedding。通过实例能更好的帮助理解。
2024-07-15 19:33:20
1152
原创 基于隐马尔可夫模型的股票预测【HMM】
本文探讨了利用隐马尔可夫模型(Hidden Markov Model, HMM)进行股票预测的建模方法,并详细介绍了模型的原理、参数初始化以及实验分析。
2024-07-01 22:18:01
2449
原创 基于CNN的股票预测方法【卷积神经网络】
本文探讨了利用卷积神经网络(CNN)进行股票预测的建模方法,并详细介绍了模型的搭建、参数选择以及数据处理方法。
2024-07-01 21:22:25
2796
原创 时间序列分析入门:概念、模型与应用【ARMA、ARIMA模型】
我们将全面探讨时间序列分析的基本概念和分类,深入理解平稳性及其检验方法,并介绍自回归模型(AR)、滑动平均模型(MA)、自回归滑动平均模型(ARMA)以及自回归积分滑动平均模型(ARIMA)的定义和应用。
2024-06-27 22:48:30
1843
原创 基于强化学习DQN的股票预测【股票交易】
本文介绍利用强化学习的经典模型——DQN来进行对股票的建模和交易,实验结果表明,在简单的交易环境设置下,该模型能帮助我们在股票交易中赚钱。
2024-06-27 15:06:18
3735
1
原创 强化学习:值函数近似【Deep Q-Network,DQN,Deep Q-learning】
DQN的提出是深度强化学习领域的重要里程碑,它展示了深度学习在强化学习中的巨大潜力,本文介绍强化学习中的值函数近似方法,以及经典的DQN模型。
2024-06-27 14:56:27
1447
原创 Mac系统suitesparse 安装错误【ld: warning: ignoring file ‘/opt/homebrew/Cellar/mpfr/4.2.1/lib/libmpfr.6.dyli
mac安装SuiteSparse常见错误
2024-05-16 17:40:21
1163
原创 凸优化的对偶理论【对偶问题、互补松弛条件、KKT条件】
对偶理论总结 :拉格朗日函数、对偶问题、弱对偶定理 、强对偶性 、互补松弛条件、KKT条件.
2024-05-16 17:30:38
4682
3
原创 强化学习:时序差分法【Temporal Difference Methods】
本节介绍强化学习中经典的时序差分方法(Temporal Difference Methods,TD)。与蒙特卡洛(MC)学习类似,TD学习也是`Model-free`的,但由于其**增量形式**在效率上相较于MC方法具有一定的优势。
2024-05-06 17:00:12
1618
1
原创 舒尔补【Schur Complement】
舒尔补(Schur complement)是线性代数中的一个重要概念,经常在矩阵理论、优化问题和数值计算中出现。舒尔补可以用来简化大型线性系统的求解和分析,特别是在稀疏矩阵和块矩阵的情况下。
2024-05-06 16:38:48
4539
2
原创 强化学习多臂老虎机介绍【Multi-armed Bandits】
Bandit(老虎机、赌博机)问题是强化学习领域中的一个经典问题,老虎机是一种用于赌博的机器,下拉老虎机的机械手臂,我们可以随机获得一个奖励。在赌场中,我们常常能看见很多老虎机被摆在一排,我们可以选择去下拉其中任何一只手臂,在强化学习中我们称为多臂老虎机(Multi-armed Bandits)问题。
2024-04-24 14:29:45
4458
原创 高斯过程回归【详细数学推导】
高斯过程回归(Gaussian Process Regression,简称GPR)是一种非参数的回归方法,它基于高斯过程(Gaussian Process)理论。在机器学习中,高斯过程是一种强大的工具,用于建模连续型的函数关系,特别适用于小样本的情况。
2024-04-22 18:23:31
8352
原创 Robbins-Monro(RM)算法【随机近似】
随机近似(Stochastic Approximation)是指用于解决寻根或优化问题的一类广泛的随机迭代算法。与许多其他求根算法(如梯度下降法、牛顿法)相比,随机近似的强大之处在于它不需要目标函数的表达式或其导数。Robbins-Monro (RM)算法是随机近似领域的开创性工作。
2024-04-22 14:47:52
3962
1
原创 极大似然估计、最大后验估计、贝叶斯估计
本节我们介绍统计学中常用的三种参数估计方法:极大似然估计(MLE)、最大后验估计(MAP)以及贝叶斯估计.
2024-04-14 16:53:03
1994
原创 蒙特卡洛方法(Monte Carlo)【强化学习】
前面介绍的值迭代和策略迭代算法,我们都假设模型已知,也就是环境的动态特性(比如各种概率)我们都预先知道。然而在实际问题中,我们可能对环境的动态特性并不是那么清楚,但是我们可以得到足够多的数据,那么我们同样可以用强化学习来建模解决这个问题,这类不利用模型的算法被称为`Model-free`的方法。`Monte Carlo`方法便是一种`Model-free`的方法。
2024-04-10 14:36:57
2237
原创 强化学习实例分析:GridWorld【值迭代和策略迭代算法Python实现】
在前面的章节,我们探讨了强化学习中两个关键算法:值迭代和策略迭代的数学原理.本节我们在Gridworld的场景下实现Value iteration和Policy iteration这两个算法.
2024-04-10 13:20:06
3208
2
原创 数值代数中的灵敏度分析【条件数】
在数值分析领域,灵敏度分析是一种用来评估数值模型对输入参数变化的敏感程度的技术。本文介绍数值分析中的条件数以及解线性方程组中的条件数。
2024-03-22 11:13:22
1469
原创 值迭代和策略迭代【强化学习】
值迭代和策略迭代是强化学习中两种基本的方法,用于解决马尔可夫决策过程(MDP)的优化问题。它们都旨在找到一个最优的策略,以在给定环境下实现最大的累积奖励。
2024-03-22 10:26:18
2457
原创 强化学习:贝尔曼最优方程【BOE】
上一节讲了贝尔曼方程,这一节继续在贝尔曼方程的基础上讲贝尔曼最优方程,后面的策略迭代和值迭代算法都是根据贝尔曼最优方程来的.
2024-03-21 09:04:23
1990
1
原创 贝尔曼方程【Bellman Equation】
贝尔曼方程(Bellman Equation),也称为贝尔曼期望方程,用于计算给定策略π时价值函数在策略指引下所采轨迹上的期望。
2024-03-20 11:31:07
6887
原创 熵、交叉熵、KL散度【详细理论推导】
熵是信息论中最基本、最核心的一个概念,它衡量了一个概率分布的随机程度,或者说包含的信息量的大小。假设随机变量取值为 x,对应的概率为 p(x)。直观来看,取这个值的可能性越小,而它又发生了,则包含的信息量就越大。也就是说,概率越小,信息量越大。例如,一年之内人类登陆火星,包含的信息量显然比广州明天要下雨大,因为前者的概率明显小于后者。因此如果定义一个函数 h(x)来描述随机变量取值为的信息量的大小的话,则h(x)应该是 p ( x )的单调减函数。满足单调递减要求的函数太多了,该选择哪个函数呢?
2024-03-19 11:48:59
1100
原创 线性规划单纯形法【推导+实例】
单纯形法是一种用于解决线性规划问题的经典算法。线性规划是一种优化问题,其目标是在给定约束条件下,找到使得某一线性目标函数取得最大值或最小值的变量取值。
2024-03-19 11:31:43
2578
原创 Mac传文件到云服务器【SCP 远程文件传输】
Mac scp是一款基于Mac OS的远程文件传输软件,可以方便快捷地将本地文件上传到远程服务器或者从服务器下载到本地。
2024-02-25 16:56:45
2683
原创 基于Pytorch的猫狗图片分类【Cat vs Dog】
猫狗分类来源于Kaggle上的一个入门竞赛——Dogs vs Cats。为了加深对CNN的理解,基于Pytorch复现了LeNet,AlexNet,ResNet等经典CNN模型……
2024-02-25 15:53:13
9202
6
原创 奇异值分解(SVD)【详细推导证明】
奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解,奇异值分解则是特征分解在任意矩阵上的推广。在信号处理、统计学等领域有重要应用。
2024-01-18 19:57:39
4484
2
原创 近似点梯度法【Proximal Gradient Method】
近似点梯度算法.它能克服次梯度算法的缺点,充分利用光滑部分的信息,并在迭代过程中显式地保证解的结构,从而能够达到和求解光滑问题的梯度算法相近的收敛速度.
2024-01-09 22:03:14
3497
原创 蒙特卡洛采样【拒绝采样、重要性采样】
蒙特卡洛方法(Monte Carlo Simulation)是一种近似推断的方法,通过采样大量粒子的方法来求解期望、均值、面积、积分等问题。蒙特卡洛对某一种分布的采样方法有直接采样、接受拒绝采样与重要性采样三种。
2024-01-05 16:37:47
7077
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人