自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 一文让你彻底搞懂最小二乘法(超详细推导)

最小二乘法是一种最常用的解决回归问题的方法,它通过最小化误差的平方和来寻找 拟合数据的最佳匹配函数,本文详细介绍了最小二乘法的原理,并从几何角度解释了最小二乘法的几何意义

2020-06-03 15:25:41 241579 52

原创 详解岭回归与L2正则化

最小二乘法存在不可逆和病态问题,导致解析解不可计算或不稳定,岭回归是一种有效的解决方法,以损失无偏性来换取稳定解, 本文介绍详细介绍了岭回归的基本原理,并从L2正则化角度来进行了解释。

2022-05-27 15:20:28 8362 12

原创 最小二乘法的原理理解

在上文一文让你彻底搞懂最小二乘法(超详细推导)中我们提到过,发明最小二乘法的勒让德认为,让误差的平方和最小估计出来的模型是最接近真实情形的(误差=真实值-理论值)。换句话说,勒让德认为最佳的拟合准则是使 yiy_{i}yi​与 f(xi)f(x_{i})f(xi​)的距离的平方和最小,即:L=∑i=1n(yi−f(xi))2L=\sum_{i=1}^{n}(y_{i}-f(x_i))^{2}L=i=1∑n​(yi​−f(xi​))2这个准则也被称为最小二乘准则。勒让德在原文中提到:使误差平方和达到最小

2021-11-28 15:47:21 44749 15

原创 通俗易懂的语言模型

自然语言处理,通俗的说就是利用计算机来处理和分析人类的语言,最终期望计算机在理解语言上像人类一样智能。众所周知,自然语言天然就是序列形式的,因此NLP所面临的一个最基本的问题就是分析这些文字序列的基本规律。那么如何去描述文字序列的规律?这就产生了理性主义和经验主义两大阵营。理性主义认为人类的智能行为可以使用符号系统来模拟,智能的基本单位是符号,认知过程就是在符号的表征下进行符号运算,因此思维就是符号运算(有图灵机那味了)。他们主张采用公理化、形式化的方法,严格按照一定的规则来描述自然语言的特征,通常是用一

2021-03-24 22:30:50 741

原创 Pytorch之模型加载/保存

pytorch保存模型主要有两种方法:保存整个模型 (结构+参数)只保存参数(官方推荐)两者都是用torch.save(obj, dir)实现,这个函数的作用是将对象保存到磁盘中,它的内部其实也是使用Python的pickle实现。两种方法的区别是:保存整个模型的obj就直接是model对象,只保存参数的obj是从model里获取的存储了model参数的词典对象,前者太占内存,而且不太灵活,故官方推荐只保存参数,然后在建好模型的基础上加载。只保存参数...

2020-08-15 16:39:21 776

原创 RNN LSTM GRU Attention transformer公式整理总结(超详细图文公式)

整理各种模型的公式,以后面试复习用RNN公式:ht=f(W⋅[ht−1,xt]+b)h_{t}=f\left(W \cdot\left[h_{t-1}, x_{t}\right]+b\right)ht​=f(W⋅[ht−1​,xt​]+b)LSTM公式:遗忘门:ft=σ(Wf⋅[ht−1,xt]+bf)f_{t}=\sigma\left(W_{f} \cdot\left[h_{t-1}, x_{t}\right]+b_{f}\right)ft​=σ(Wf​⋅[ht−1​,xt​]+bf​)

2020-08-11 23:58:24 5118 1

原创 Python中常用的模块和高级语法整理总结

总结Python中常用的模块和一些高级语法

2020-08-11 09:01:17 360

转载 一文详解Attention机制

Attention机制我们知道Seq2Seq模型有一个缺点就是句子太长的话encoder会遗忘,那么decoder接受到的句子特征也就不完全,我们看一下下面这个图,纵轴BLUE是机器翻译的指标,横轴是句子的单词量,我们可以看出用了attention之后模型的性能大大提升。用了注意力机制,Decoder每次更新状态的时候都会再看一遍encoder所有状态,还会告诉decoder要更关注哪部分,这也是attention名字的由来。但是缺点就是计算量很大。Attention原理在encoder结束之后

2020-07-27 21:13:27 4944

转载 深入理解机器学习中的信息熵、KL散度、交叉熵

通用的说,熵(Entropy)被用于描述一个系统中的不确定性(the uncertainty of a system)。在不同领域熵有不同的解释,比如热力学的定义和信息论也不大相同。要想明白交叉熵(Cross Entropy)的意义,可以从熵(Entropy) -> KL散度(Kullback-Leibler Divergence) -> 交叉熵这个顺序入手。先给出一个“接地气但不严谨”的概念表述:熵:可以表示一个事件A的自信息量,也就是A包含多少信息。KL散度:可以用来表示从事件A的角

2020-07-20 23:18:09 766

原创 一文让你彻底搞懂主成成分分析PCA的原理及代码实现(超详细推导)

主成分分析(Principal components analysis)PCA是一个很重要的降维算法,可以用来降噪、消除冗余信息等,只要和数据打交道几乎是必学的。它需要一些前置知识,我自己学的时候总是一知半解,后来才知道是这些前置知识基础没打牢固,为了彻底搞明白,我另外写了几篇文章,理清了其中用到的一些知识,基础不好的同学可以先过一下:带你深入理解期望、方差、协方差的含义一文读懂特征值分解EVD与奇异值分解SVD引言首先先举个例子来认识一下数据。假设我们有一组二维数据(x,y),它的分布如下:

2020-07-20 14:46:47 6728 7

原创 一文读懂特征值分解EVD与奇异值分解SVD

这篇关于特征值和特征向量的内容是我用PCA的时候接触到的,本科学的东西早就记不得了orz,所以复习了一遍顺便做了一下梳理,这算是PCA的前置知识。特征值分解特征值与特征向量设 AAA 是 nnn 阶矩阵, 如果数λ\lambdaλ 和 nnn 维非零列向量 xxx 使关系式Ax=λxA x=\lambda xAx=λx成立,那么λ\lambdaλ 就称为矩阵 AAA 的特征值, xxx 称为AAA的对应于特征 值 λ\lambdaλ 的特征向量。注意有两个要素:(1)AAA是方阵(2)xxx是非

2020-07-13 15:35:46 1610 1

转载 git常用命令总结

从以下常见的场景来整理git中常用的命令:从一个空的或存在的项目开始,初始化项目(init),提交代码到本地仓库,将本地仓库的代码推送到远端库(push);设置、查看用户名和邮箱:git config --global user.name namegit config --global user.email emailgit config --global --list...

2020-07-12 20:56:01 363

原创 手把手教你用fairseq训练一个NMT机器翻译系统

好的

2020-07-11 15:26:28 10254 32

原创 Shell 中常用的if 语句总结

if的基本语法if [ condition];then  commandelif [ condition];then  commandelse  commandfi常用的文件/文件夹(目录)判断[ -d DIR ] 如果 FILE 存在且是一个目录则为真。[ -e FILE ] 如果 FILE 存在则为真。[ -f FILE ] 如果 FILE 存在且是一个普通文件则为真。[ -r FILE ] 如果 FILE 存在且是可读的则为真。[ -s FILE ] 如果 FILE 存在且大

2020-07-09 21:33:06 182

原创 linux操作字符串、文本常用命令总结

https://www.jianshu.com/p/2216f2fb1c7e

2020-07-07 18:29:07 810

原创 机器学习中的混淆矩阵,准确率,精确率,召回率,F1,ROC/AUC,AP/MAP

评价指标的引出为什么要引出这么多评价指标,它是基于什么样的需求?在生活中,最常用的就是准确率,因为它定义简单而且比较通用,但在机器学习中,它往往不是评估模型的最佳工具, 特别是在数据分布不平衡的时候,请看一个例子:比如我们训练了一个预测地震的模型,预测类别只有两个:0:不发生地震、1:发生地震,当前有100个测试集,如果模型地无脑把每一个测试用例都预测为0,那么它就达到99%的准确率,但实际上它并不具有预测的能力,为什么会出现这种情况?因为这里数据分布不平衡,类别为1的数据太少,完全分错类别1依然可以

2020-06-20 19:13:17 5802 6

原创 linux scp后台运行的办法

scp 需要在前台输入密码,然后慢慢等着传输完成,特别传很大数据的时候,长时间占用当前的窗口很是不方便,其实是有命令可以把scp放到后台的。输入scp命令,输完密码后ctrl + z暂停任务,此时scp被系统挂起前面的 [1] 代表此任务(scp)的id,也可以用jobs查看bg %num 将后台暂停的任务在后台继续运行...

2020-06-10 19:35:50 1323

原创 推导余弦距离和欧式距离的关系

最近搞研究看到公式就头疼,哎,深深感受到数学不好就意味着被降维打击 O_o我还发现,在Deep Learning里,因为操作的对象是高维向量,所以很多paper里的公式都喜欢用矩阵乘来表达公式,这样的优点是公式表达更简洁(一个矩阵乘同时包含了乘法和加法),缺点就是菜的人可能一时半会反应不过来,比如说我!假设有两个 nnn 维向量 x,yx,yx,y ,x=(x1,x2,...,xn),y=(y1,y2,...,yn)x=(x_1, x_2, ..., x _n), y=(y_1, y_2, ..., y

2020-05-25 17:34:09 1212

原创 机器翻译书籍、教材推荐 ——《机器翻译:基础与模型》肖桐 朱靖波 著

推荐一本来自东北大学自然语言处理实验室 · 小牛翻译的肖桐 (Tong Xiao) 朱靖波 (Jingbo Zhu)撰写的《机器翻译:统计建模与深度学习方法》,这是一个教程,目的是对机器翻译的统计建模和深度学习方法进行较为系统的介绍,对NLP感兴趣的墙裂推荐阅读。书共分为七个章节,章节的顺序参考了机器翻译技术发展的时间脉络,同时兼顾了机器翻译知识体系的内在逻辑。各章节的主要内容包括:第一章:机器翻译简介第二章:词法、语法及统计建模基础第三章:基于词的机器翻译模型第四章:基于短语和句法的机器翻译模

2020-05-24 15:02:38 1373

原创 Python Poetry管理包安装速度慢的解决办法

由于Poetry是依靠pip来进行安装的,所以我们可以通过更改pip镜像源来加快速度,但是Poetry没有提供临时更换镜像源的接口,所以我们只能修改pip镜像源配置文件(永久修改,恢复默认删除内容即可)。相关文章:pip临时更换镜像源 https://blog.csdn.net/MoreAction_/article/details/105894344镜像源清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.co

2020-05-24 12:21:25 6305

原创 带你深入理解期望、方差、协方差的含义

基本概念为了能够更深刻的理解,这里先梳理一下概率论中的几个基本概念。事件事件指某种(或某些)情况的“陈述”,通俗来讲,事件就是一些case,比如A事件定义为,掷出偶数点=(2,4,6),这个case包含了多个结果,其中,每个结果叫做一个基本事件,一个事件是由若干基本事件构成的。由此可见,事件的本质是 集合。有了事件,自然就有事件之间的关系,因为事件的本质是集合,所以我们可以用集合的运算符号来表达事件之间的基本逻辑关系,基本关系有 :蕴含与相等:如果当A发生时B必发生 ,记A⊂BA\subset B

2020-05-21 16:46:35 14524 4

转载 协方差的意义

协方差其意义:度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。如果正相关,这个计算公式,每个样本对(Xi, Yi), 每个求和项大部分都是正数,即两个同方向偏离各自均值,而...

2020-05-19 15:47:56 2248

原创 相关系数——皮尔逊相关系数的公式及其理解

一些前置知识,期望、方差、协方差概念及其相关公式参见定义皮尔逊相关系数,简称相关系数,严格来说,应该称为“线性相关系数”。这是因为,相关系数只是刻画了X,Y之间的“线性”关系程度。换句话说,假如X与Y有其它的函数关系但非线性关系时,用相关系数来衡量是不合理的。相关系数定义为:ρX,Y=cov⁡(X,Y)σXσY=E((X−μX)(Y−μY))σXσY=E(XY)−E(X)E(Y)E(X2)−E2(X)E(Y2)−E2(Y)\rho_{X, Y}=\frac{\operatorname{cov}(X,

2020-05-18 19:08:07 96909 1

原创 矩阵范数与向量范数的公式及其理解

矩阵是什么?我们都知道映射指的是一个空间 Rm\mathbb{R}^mRm到另一个空间 Rn\mathbb{R}^nRn的变换关系,狭义的函数其实是映射的一种特例,特指实数集间 R1\mathbb{R}^1R1的映射关系。在所有映射中,我们最常见的是线性映射,对这种线性映射关系,我们是用矩阵来刻画,比如我们要将一个向量x∈Rmx \in \mathbb{R}^mx∈Rm映射到另外一个空间Rn\...

2020-05-07 18:47:57 6887

原创 pip下载速度慢的解决办法

在python安装某些包的时候可能会速度非常慢,这种情况下有两种解决办法,一种是临时更换镜像源、一种是在别的服务器下好安装包然后传到这个服务器上离线安装,首先推荐第一种,下面介绍操作方法。临时更换镜像源命令如下:pip install package -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyu...

2020-05-02 20:51:50 1440

原创 Pytorch tensor基础知识

tensor是深度学习计算中的基本数据结构,本文主要介绍Pytorch中的tensor对象的基础知识,包括tensor对象中的常用属性以及方法。Tensor属性Tensor对象,即torch.Tensor的大多属性都不是基本数据类型,而是Pytorch中定义的类,比如torch.dtype、torch.device等torch.dtypetensor.dtype 属性标识了 torch.T...

2020-04-30 23:19:11 983

转载 Markdown 数学公式语法

行内与独行行内公式:将公式插入到本行内,符号:$公式内容$,如:$xyz$独行公式:将公式插入到新的一行内,并且居中,符号:$$公式内容$$,如:$$xyz$$上标、下标与组合上标符号,符号:^,如:$x^4$下标符号,符号:_,如:$x_1$组合符号,符号:{},如:${16}_{8}O{2+}_{2}$汉字、字体与格式汉字形式,符号:\mbox{},如:$V_{\mb...

2020-04-12 22:28:04 416

原创 一文让你通俗易懂的理解正交变换和正交矩阵

2020-04-12 18:16:16 47054 15

转载 奇异值分解(SVD)原理详解及推导

    在网上看到有很多文章介绍SVD的,讲的也都不错,但是感觉还是有需要补充的,特别是关于矩阵和映射之间的对应关系。前段时间看了国外的一篇文章,叫A Singularly Valuable Decomposition The SVD of a Matrix,觉得分析的特别好,把矩阵和空间关系对应了起来。本文就参考了该文并结合矩阵的相关知识把SVD原理梳理一下。  ...

2020-04-10 20:28:03 576

原创 跨语言词嵌入无监督词典推断论文笔记Bilingual Lexicon Induction with Semi-supervision in Non-Isometric Embedding Spaces

论文地址代码背景目前的双语词典推断任务(bilingual lexicon induction BLI)主要分为弱监督方法和无监督方法两类,这两类方法都是基于这样一个假设:embedding空间具有相似性(isometry),因此他们的目标就是将预先训练的不同语言的embedding映射到共同的语义空间中(大多是线性转移矩阵),然后通过K-NN算法来进行词典推断,也就是找到互译对。目前的弱...

2020-04-06 00:05:12 1042 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除