胤风-CSDN博客

原创一文让你彻底搞懂最小二乘法（超详细推导）

最小二乘法是一种最常用的解决回归问题的方法，它通过最小化误差的平方和来寻找拟合数据的最佳匹配函数，本文详细介绍了最小二乘法的原理，并从几何角度解释了最小二乘法的几何意义

2020-06-03 15:25:41 241579 52

原创详解岭回归与L2正则化

最小二乘法存在不可逆和病态问题，导致解析解不可计算或不稳定，岭回归是一种有效的解决方法，以损失无偏性来换取稳定解，本文介绍详细介绍了岭回归的基本原理，并从L2正则化角度来进行了解释。

2022-05-27 15:20:28 8362 12

在上文一文让你彻底搞懂最小二乘法（超详细推导）中我们提到过，发明最小二乘法的勒让德认为，让误差的平方和最小估计出来的模型是最接近真实情形的(误差=真实值-理论值)。换句话说，勒让德认为最佳的拟合准则是使 yiy_{i}yi与 f(xi)f(x_{i})f(xi)的距离的平方和最小，即：L=∑i=1n(yi−f(xi))2L=\sum_{i=1}^{n}(y_{i}-f(x_i))^{2}L=i=1∑n(yi−f(xi))2这个准则也被称为最小二乘准则。勒让德在原文中提到：使误差平方和达到最小

2021-11-28 15:47:21 44749 15

原创通俗易懂的语言模型

自然语言处理，通俗的说就是利用计算机来处理和分析人类的语言，最终期望计算机在理解语言上像人类一样智能。众所周知，自然语言天然就是序列形式的，因此NLP所面临的一个最基本的问题就是分析这些文字序列的基本规律。那么如何去描述文字序列的规律？这就产生了理性主义和经验主义两大阵营。理性主义认为人类的智能行为可以使用符号系统来模拟，智能的基本单位是符号，认知过程就是在符号的表征下进行符号运算，因此思维就是符号运算（有图灵机那味了）。他们主张采用公理化、形式化的方法，严格按照一定的规则来描述自然语言的特征，通常是用一

2021-03-24 22:30:50 741

原创 Pytorch之模型加载/保存

pytorch保存模型主要有两种方法：保存整个模型 (结构+参数)只保存参数（官方推荐）两者都是用torch.save(obj, dir)实现，这个函数的作用是将对象保存到磁盘中，它的内部其实也是使用Python的pickle实现。两种方法的区别是：保存整个模型的obj就直接是model对象，只保存参数的obj是从model里获取的存储了model参数的词典对象，前者太占内存，而且不太灵活，故官方推荐只保存参数，然后在建好模型的基础上加载。只保存参数...

2020-08-15 16:39:21 776

原创 RNN LSTM GRU Attention transformer公式整理总结（超详细图文公式）

整理各种模型的公式，以后面试复习用RNN公式：ht=f(W⋅[ht−1,xt]+b)h_{t}=f\left(W \cdot\left[h_{t-1}, x_{t}\right]+b\right)ht=f(W⋅[ht−1,xt]+b)LSTM公式：遗忘门：ft=σ(Wf⋅[ht−1,xt]+bf)f_{t}=\sigma\left(W_{f} \cdot\left[h_{t-1}, x_{t}\right]+b_{f}\right)ft=σ(Wf⋅[ht−1,xt]+bf)

2020-08-11 23:58:24 5118 1

原创 Python中常用的模块和高级语法整理总结

总结Python中常用的模块和一些高级语法

2020-08-11 09:01:17 360

转载一文详解Attention机制

Attention机制我们知道Seq2Seq模型有一个缺点就是句子太长的话encoder会遗忘，那么decoder接受到的句子特征也就不完全，我们看一下下面这个图，纵轴BLUE是机器翻译的指标，横轴是句子的单词量，我们可以看出用了attention之后模型的性能大大提升。用了注意力机制，Decoder每次更新状态的时候都会再看一遍encoder所有状态，还会告诉decoder要更关注哪部分，这也是attention名字的由来。但是缺点就是计算量很大。Attention原理在encoder结束之后

2020-07-27 21:13:27 4944

转载深入理解机器学习中的信息熵、KL散度、交叉熵

通用的说，熵(Entropy)被用于描述一个系统中的不确定性(the uncertainty of a system)。在不同领域熵有不同的解释，比如热力学的定义和信息论也不大相同。要想明白交叉熵(Cross Entropy)的意义，可以从熵(Entropy) -> KL散度(Kullback-Leibler Divergence) -> 交叉熵这个顺序入手。先给出一个“接地气但不严谨”的概念表述：熵：可以表示一个事件A的自信息量，也就是A包含多少信息。KL散度：可以用来表示从事件A的角

2020-07-20 23:18:09 766

原创一文让你彻底搞懂主成成分分析PCA的原理及代码实现(超详细推导)

主成分分析（Principal components analysis）PCA是一个很重要的降维算法，可以用来降噪、消除冗余信息等，只要和数据打交道几乎是必学的。它需要一些前置知识，我自己学的时候总是一知半解，后来才知道是这些前置知识基础没打牢固，为了彻底搞明白，我另外写了几篇文章，理清了其中用到的一些知识，基础不好的同学可以先过一下：带你深入理解期望、方差、协方差的含义一文读懂特征值分解EVD与奇异值分解SVD引言首先先举个例子来认识一下数据。假设我们有一组二维数据(x,y)，它的分布如下：

2020-07-20 14:46:47 6728 7

原创一文读懂特征值分解EVD与奇异值分解SVD

这篇关于特征值和特征向量的内容是我用PCA的时候接触到的，本科学的东西早就记不得了orz，所以复习了一遍顺便做了一下梳理，这算是PCA的前置知识。特征值分解特征值与特征向量设 AAA 是 nnn 阶矩阵, 如果数λ\lambdaλ 和 nnn 维非零列向量 xxx 使关系式Ax=λxA x=\lambda xAx=λx成立，那么λ\lambdaλ 就称为矩阵 AAA 的特征值, xxx 称为AAA的对应于特征值 λ\lambdaλ 的特征向量。注意有两个要素：（1）AAA是方阵（2）xxx是非

2020-07-13 15:35:46 1610 1

转载 git常用命令总结

从以下常见的场景来整理git中常用的命令：从一个空的或存在的项目开始，初始化项目（init），提交代码到本地仓库，将本地仓库的代码推送到远端库（push）；设置、查看用户名和邮箱：git config --global user.name namegit config --global user.email emailgit config --global --list...

2020-07-12 20:56:01 363

原创手把手教你用fairseq训练一个NMT机器翻译系统

好的

2020-07-11 15:26:28 10254 32

原创 Shell 中常用的if 语句总结

if的基本语法if [ condition];then commandelif [ condition];then commandelse commandfi常用的文件/文件夹(目录)判断[ -d DIR ] 如果 FILE 存在且是一个目录则为真。[ -e FILE ] 如果 FILE 存在则为真。[ -f FILE ] 如果 FILE 存在且是一个普通文件则为真。[ -r FILE ] 如果 FILE 存在且是可读的则为真。[ -s FILE ] 如果 FILE 存在且大

2020-07-09 21:33:06 182

原创 linux操作字符串、文本常用命令总结

https://www.jianshu.com/p/2216f2fb1c7e

2020-07-07 18:29:07 810

原创机器学习中的混淆矩阵，准确率，精确率，召回率，F1，ROC/AUC，AP/MAP

评价指标的引出为什么要引出这么多评价指标，它是基于什么样的需求？在生活中，最常用的就是准确率，因为它定义简单而且比较通用，但在机器学习中，它往往不是评估模型的最佳工具，特别是在数据分布不平衡的时候，请看一个例子：比如我们训练了一个预测地震的模型，预测类别只有两个：0：不发生地震、1：发生地震，当前有100个测试集，如果模型地无脑把每一个测试用例都预测为0，那么它就达到99%的准确率，但实际上它并不具有预测的能力，为什么会出现这种情况？因为这里数据分布不平衡，类别为1的数据太少，完全分错类别1依然可以

2020-06-20 19:13:17 5802 6

原创 linux scp后台运行的办法

scp 需要在前台输入密码，然后慢慢等着传输完成，特别传很大数据的时候，长时间占用当前的窗口很是不方便，其实是有命令可以把scp放到后台的。输入scp命令，输完密码后ctrl + z暂停任务,此时scp被系统挂起前面的 [1] 代表此任务（scp）的id，也可以用jobs查看bg %num 将后台暂停的任务在后台继续运行...

2020-06-10 19:35:50 1323

原创推导余弦距离和欧式距离的关系

最近搞研究看到公式就头疼，哎，深深感受到数学不好就意味着被降维打击 O_o我还发现，在Deep Learning里，因为操作的对象是高维向量，所以很多paper里的公式都喜欢用矩阵乘来表达公式，这样的优点是公式表达更简洁（一个矩阵乘同时包含了乘法和加法），缺点就是菜的人可能一时半会反应不过来，比如说我！假设有两个 nnn 维向量 x,yx,yx,y ，x=(x1,x2,...,xn),y=(y1,y2,...,yn)x=(x_1, x_2, ..., x _n), y=(y_1, y_2, ..., y

2020-05-25 17:34:09 1212

原创机器翻译书籍、教材推荐 ——《机器翻译：基础与模型》肖桐朱靖波著

推荐一本来自东北大学自然语言处理实验室 · 小牛翻译的肖桐 (Tong Xiao) 朱靖波 (Jingbo Zhu)撰写的《机器翻译：统计建模与深度学习方法》，这是一个教程，目的是对机器翻译的统计建模和深度学习方法进行较为系统的介绍，对NLP感兴趣的墙裂推荐阅读。书共分为七个章节，章节的顺序参考了机器翻译技术发展的时间脉络，同时兼顾了机器翻译知识体系的内在逻辑。各章节的主要内容包括：第一章：机器翻译简介第二章：词法、语法及统计建模基础第三章：基于词的机器翻译模型第四章：基于短语和句法的机器翻译模

2020-05-24 15:02:38 1373

原创 Python Poetry管理包安装速度慢的解决办法

由于Poetry是依靠pip来进行安装的，所以我们可以通过更改pip镜像源来加快速度，但是Poetry没有提供临时更换镜像源的接口，所以我们只能修改pip镜像源配置文件（永久修改，恢复默认删除内容即可）。相关文章：pip临时更换镜像源 https://blog.csdn.net/MoreAction_/article/details/105894344镜像源清华：https://pypi.tuna.tsinghua.edu.cn/simple阿里云：http://mirrors.aliyun.co

2020-05-24 12:21:25 6305

原创带你深入理解期望、方差、协方差的含义

基本概念为了能够更深刻的理解，这里先梳理一下概率论中的几个基本概念。事件事件指某种（或某些）情况的“陈述”，通俗来讲，事件就是一些case，比如A事件定义为，掷出偶数点=(2,4,6)，这个case包含了多个结果，其中，每个结果叫做一个基本事件，一个事件是由若干基本事件构成的。由此可见，事件的本质是集合。有了事件，自然就有事件之间的关系，因为事件的本质是集合，所以我们可以用集合的运算符号来表达事件之间的基本逻辑关系，基本关系有：蕴含与相等：如果当A发生时B必发生，记A⊂BA\subset B

2020-05-21 16:46:35 14524 4

转载协方差的意义

协方差其意义：度量各个维度偏离其均值的程度。协方差的值如果为正值，则说明两者是正相关的(从协方差可以引出“相关系数”的定义)，结果为负值就说明负相关的，如果为0，也是就是统计上说的“相互独立”。如果正相关，这个计算公式，每个样本对（Xi, Yi）,　每个求和项大部分都是正数，即两个同方向偏离各自均值，而...

2020-05-19 15:47:56 2248

原创相关系数——皮尔逊相关系数的公式及其理解

一些前置知识，期望、方差、协方差概念及其相关公式参见定义皮尔逊相关系数，简称相关系数，严格来说，应该称为“线性相关系数”。这是因为，相关系数只是刻画了X，Y之间的“线性”关系程度。换句话说，假如X与Y有其它的函数关系但非线性关系时，用相关系数来衡量是不合理的。相关系数定义为：ρX,Y=cov⁡(X,Y)σXσY=E((X−μX)(Y−μY))σXσY=E(XY)−E(X)E(Y)E(X2)−E2(X)E(Y2)−E2(Y)\rho_{X, Y}=\frac{\operatorname{cov}(X,

2020-05-18 19:08:07 96909 1

Luoyingfeng的博客