向内求解-CSDN博客

原创【小白数学】为什么可以用拉格朗日乘子法求函数的极值【二】

注意到图中有一个点A，经过该点的除了有绿色的箭头还有灰色的箭头，很显然可以看得出来，只有绿色的箭头方向是。在看多元函数的导数之前，我们先看一下图中紫色的那一圈圈的线是什么？接下来我们再来看多元函数的导数（也称为梯度），是怎么样的：单个变量的导数叫”导数“，一组变量的导数叫”梯度“ （这组变量本身是函数。值变化最快的方向（也是上山最快的方向），而其他的灰色箭头的方向要么是”下山“，要么是”在周围随意闲逛“的方向。是一个对称的圆形”山坡“，所以直观理解上，我们要找的极值应该在交线的最高位置。

2025-02-27 19:45:42 1231 1

原创【小白数学】- 为什么可以用拉格朗日乘子法求函数的极值【一】

本文不是一篇对拉格朗日乘子法的通俗介绍，而是想要说明为什么可以用拉格朗日乘子法求极值（如果大家不记得什么是拉格朗日乘子法可以参考维基百科页面。的取值，这里确实是不够严谨的，因为本文主要是一篇解释拉格朗日乘子法为什么可以对目标函数的极值的介绍，所以这里偷懒就没有写得很严格了）。，如果我们对其中的第二个式子中的常量。，移到等号的左侧，显然有。取得最小值的时候，相应的。

2025-02-22 16:56:41 1011

原创归因分析【三】：维度归因实战与变量替换扩展

大家好，欢迎来到归因分析系列的第三篇，在本文中，我们将首先给出一个应用维度归因的案例，然后再讨论一下其他的变量替换的变体方法。以便大家能够真正在实践中，应用掌握差分法分析出更重要的业务维度或者因子。你的鼓励是我最大的创造动力。

2025-02-11 11:49:25 1161

原创归因分析【二】：维度归因与差分法

在上一篇博客中，我们为大家简单介绍了归因分析中常见的基于公式分解的因子贡献率的方法。在开始本篇之前，我们为大家介绍基于维度的归因分析。：所谓指标，就是我们归因和分析的目标。如果大家看了上一篇博客，可以知道，就是指在归因分析中的Y值。我们希望知道导致这个指标变化的主导因素。例如：总销售额，满意度，都可以是我们这里所说的“指标”。：所谓维度，是指构成或者影响指标的一组值。例如，总销售额 = 平均价格 x 总销量，而“总销量”又可以按照城市来分解为：北京的销量、上海的销量等；这里的“总销量”就可以认为一个维度。

2025-02-06 14:39:42 1495 3

原创归因分析【一】：加法型、乘法型、除法型指标的贡献度计算

归因分析是数据分析以及BI（Business Intelligence）中一项常见功能，可以很简单，也可以很复杂，具体视不同问题而定。最近因为偶然的机会，需要解决一些归因分析的问题。所以看了一些这方面的资料，作为初学者（或者说外行），发现外部的资料并不丰富（或者是叙述不够完整，让初学者看后丈二和尚摸不着头脑），这里从初学者的角度来总结一下所看所学，有不对的地方还请大家指正。首先，我们来看，为什么需要归因分析？或者说归因分析可以用来解决什么问题？假设我是最近大火的《哪吒2》的导演，我想要知道和《哪吒1》相比，

2025-02-05 18:07:30 3913

原创解读：C-Eval: 构造中文大模型的知识评估基准

但随着OpenAI o1等模型的发布，很多人可以使用小模型基于CoT来训练出推理能力，据说在一些打榜的数学测试集上结果不错，但对于通用世界里面的比较困难的问题，是否也可以能有比较好的推理能力，其实还需要大家进一步去验证。（这里需要澄清一点的是，我们通常说的“思维链”（Chain of Thoughts，又简称为CoT）只是一种可以增强大模型能力的方式，CoT本身并不是指大模型的推理。简单来说，就是大模型对世界的通用知识的记忆，目前业界形成的共识是模型的大小和知识密集型任务的效果成正比。

2025-01-16 21:43:45 1310 2

原创实数与幂级数漫谈

最近一直想把神经网络的反向传播再吃透一些，其中涉及到了幂级数以及泰勒级数。泰勒级数是对任意的一个函数在某一个特定点a的展开。既然泰勒级数是一种应用在函数上的幂级数，那么应用在普通实数上的幂级数又是怎样的呢？我想看看一个普通的实数是否也能“展开”（可能这种说法不是很精准，所以本文属于“漫谈”），本来觉得没有什么好写的，因为跟神经网络和机器学习比较远。但写着写着，发现很多内容其实自己也没有答案。所以决定将这个探索、思考、并找答案的的过程分享给大家，也欢迎大家关注我，对其中的感兴趣的部分留言并指出其中的错误。

2025-01-09 15:45:10 1082

原创如何计算大语言模型（LLM）困惑度（Perplexity）

介绍完了语言模型的基本概念，我们再来看Perplexity的概念会轻松很多，简单来说Perplexity就是度量一个语言模型MMM产生的序列与真实分布（ground truth）之间的差异；Perplexity的值越小，表示这个语言模型性能越好。我们在一个语言LLL上，定义一个序列Sw1wsSw1...ws的Perplexity为PPSPP(S)PPSPPS1Pw1w2wls3PPSsPw1w2...w。

2024-12-31 18:56:13 2458

原创浮点数的表示以及数值转换

本文主要讨论以下的两个问题：一、十进制的浮点数如何转换成二进制浮点数二、二进制的浮点数，如何放到一个16bit或者32bit存储单元中。

2024-12-24 17:19:31 1557

原创从数学角度看Gradient Accumulation

所以我们自己实现Gradient Accumulation的时候，需要注意的是全局的梯度值，在满足一定条件下才能是所有mini batch产生的梯度值的平均值。这里介绍的过程，从下面的图中可以看得更清楚，这里一个batch被分成4个mini batch，即。个mini batch，每一个mini batch的batch size为。好吧，问题来了，如何将这些mini batch所形成的梯度进行合并，在公式。我们只能将这这个batch，拆分为一系列的mini batch。进行合并，形成一个全局的梯度。

2024-12-12 14:10:58 641

原创从数学的角度看DDP

DDP，全称Distributed Data Parallel，是一种数据并行的模型训练策略，尤其是在如今大模型盛行的时代，得到了广泛的使用。网络上有很多的文章介绍DDP，但大多都是通过流程、框架、别人的API调用示例为大家讲解。我看完之后也以为很简单，直到我自己从原理层面走完一遍，我才发现我并不真的懂。本文基于我个人的理解试图从更偏数学基础的角度讲清楚是DDP是怎么回事儿。（其实本人数学并不好，只是要把很多基础的东西讲清楚，目前水平有限，只能选择使用数学公式来表达。而且数学公式也会更严谨一些，自己想当然的

2024-12-10 11:04:03 1059

原创 PuTTY error: "No supported authentication methods available"

在linux/unix环境下使用sshkey-gen生成的私钥需要

2014-10-20 13:53:23 11453

qq_22208399的专栏