![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习笔记
Nstar-LDS
n品炼丹师
展开
-
深度学习必备数学基础 全讲解
数学基础总结花书1-4章,所必备的数学基础如下矩阵对角化,SVD分解与应用(神经网络加速,图像压缩)逆矩阵,伪逆矩阵PCA原理与推导极大似然估计等估计方法有约束无约束的最优化问题...原创 2020-06-16 12:51:33 · 1259 阅读 · 1 评论 -
概率潜在语义分析(PLSA)
文章目录基本概要生成模型和共现模型概率潜在语义分析的算法基本概要概率潜在语义分析是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型最大的特点就是用隐变量表示话题。整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程。假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。概率潜在语义分析受潜在语义分析的启发,1999年由Hofmann提出。最初用于文本数据挖掘,后来扩展至其他领域。上面的说法比较抽象,下面采用更加具体的说法。给定一个文本集合(一句句的话),每原创 2020-05-30 16:44:08 · 1204 阅读 · 0 评论 -
潜在语义分析——统计学时代NLP的经典方法
基本概要潜在语义分析,简称LSA(Latent semantic analysis),1990年提出,是一种无监督学习方法,主要用于文本的话题分析、信息检索、推荐系统、图像处理等等。其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。文本信息处理中,传统方法以词向量表示文本的语义内容,以单词向量空间的度量表示文本之间的语义相似度。而这样的方式真的可以准确表示语义吗?不能(当时应该还是词袋模型one-hot表示法或频率统计或者共现矩阵,word2vec之后基本上可以满足,即使有的场景不满足也是要基原创 2020-05-26 15:36:07 · 1021 阅读 · 0 评论 -
主成分分析 所有知识点全解
基本概念梳理主成分分析方法,是一种使用最广泛的数据降维算法。主要思想是将n维特征映射到k维上,这k维是全新的正交特征,这些正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。这k维构造得好不好,主要看k维空间下,对原始样本空间中数据的特点是否进行了有效的保持,这样机器学习性能才不会大打折扣,保持越多构造得就越好。这些k维空间的正交特征可以理解为k个坐标轴,这k个坐标轴的选取是有规律的,一般第一个坐标轴选取原始数据中方差最大的方向,第m个坐标轴选取与前m-1个正交且使得数据在该轴上投影原创 2020-05-23 13:32:53 · 2367 阅读 · 0 评论 -
收藏!机器学习100个相关资源推荐
文章目录前言基础知识篇工程实践篇如何做研究paper资源其他资源写在最后100篇导航检索式网站、学习笔记与教材推荐(资源持续更新中~)前言理工科生从大三往后,往往已经具备了学习机器学习和深度学习的基础了,此时已经具备了高等数学、概率统计和线性代数的初步知识,本篇文章主要想描绘从此刻开始,到一个合格的熟练掌握机器学习和深度学习知识的专业领域内的拔尖人才,这中间的路上需要踩过哪些地砖。都是一些个...原创 2020-04-23 15:03:45 · 522 阅读 · 0 评论 -
统计机器学习方法——支持向量机
支持向量机和感知机的差别仅在与损失函数不同而已(有间隔最大的要求)。它也是一种二分类模型。数据点就叫支撑向量。当数据线性可分时,就使得所有点到直线距离最大化的直线,让直线变成唯一的。两个支撑超平面H之间没有数据点,两个支撑超平面之间的距离称为硬间隔(不允许有数据点出现在支撑超平面之间),也有软间隔(允许点出现在支撑超平面之间,如果点出现在分离超平面另一边也就是错分类,需要加个惩罚)。支撑超平面...原创 2020-04-14 12:15:37 · 213 阅读 · 0 评论 -
全面理解条件随机场
条件随机场(CRF)是给定一组输入随机变量条件下,另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。本篇笔记主要是关于线性链条件随机场,就是由输入序列对输出序列预测的判别模型,形式为对数线性模型,学习方法是极大似然+正则。概率无向图模型概率无向图模型又称为马尔可夫随机场,是一个可以由无向图表示的联合概率分布。无向图中连接两个结点的边表明了这两个结点存在某种关系,...原创 2020-04-12 17:18:08 · 579 阅读 · 0 评论 -
最大熵模型与学习算法(附加拉格朗日对偶性详解)
这是在自然语言处理中常用到的模型,熵代表信息的混乱程度。最大熵模型就是要在满足约束条件的模型集合中选择熵最大的模型,为什么要选择熵最大的模型呢?因为在不清楚真实数据分布的情况下,我们只能假设数据的分布是平均的,而概率越平均分布的模型的预测结果,它的熵就越大。个人认为熵越大从某种程度上说也能避免过拟合。...原创 2020-04-12 17:12:36 · 909 阅读 · 0 评论 -
全面理解隐马尔可夫模型
隐马尔可夫模型的基本概念隐马尔可夫模型(Hidden Markov Model, HMM)是可用于标注问题的统计学习模型,也叫概率模型。描述由隐藏的马尔科夫链随机生成观测序列的过程属于生成模型。对于随机变量个数非常多的情况,往往会用概率图模型来描述变量间的关系(这个关系往往表示是不是独立的)。概率图模型分为有向图和无向图两种情况,而隐马尔可夫模型用的就是有向图表示变量间的关系。隐马尔可夫模型的...原创 2020-04-05 17:48:06 · 879 阅读 · 0 评论 -
全面理解EM算法
EM算法的引入EM算法用于含有隐变量的概率模型参数的极大似然估计或极大后验概率估计。和其他估计方法不同之处就在于,最大化观测数据的似然函数变成最大化完全数据的似然函数。如果概率模型的变量都是观测变量,那给定数据就能直接用极大似然估计或贝叶斯估计来估计模型参数。但是,当模型含有隐变量时,就不能简单使用这些估计方法。EM算法就是含有隐变量的概率模型参数的极大似然估计法或极大后验概率估计法。EM算...原创 2020-04-03 14:33:03 · 589 阅读 · 0 评论 -
Boosting方法详解
提升方法在分类问题中,通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。提升方法与AdaBoost算法提升方法的核心思想就是:一个复杂的任务由多个专家的判断进行适当综合所得出的结论,比其中任何一个专家单独判断所给出的结论要好。提升方法的基本思路对于分类问题而言,给定一个训练样本集,求比较粗糙的分类规则(分类结果比随机猜测要好的规则也叫弱分类器)要比求精确的...原创 2020-04-01 17:45:22 · 2453 阅读 · 0 评论 -
全面理解决策树
文章目录前言决策树模型与学习决策树模型决策树与条件概率分布决策树学习特征选择信息增益信息增益比决策树的生成决策树的剪枝该篇笔记主要思路借鉴《统计学习方法》前言决策树是一种基本的分类与回归方法,《统计学习方法》中主要讨论的是用于分类的决策树,《The Element of Statistical Learning》中对树结构方法的讨论较为全面,但是对应的门槛也较高。如果要全面掌握树结构方法,可...原创 2020-03-29 16:43:35 · 353 阅读 · 0 评论 -
动手理解Batch Normalization
文章目录Batch Normalization基础知识数学原理PyTorch中的BN实验部分torch.nn.BatchNorm1dtorch.nn.BatchNorm2dtorch.nn.BatchNorm3dBatch Normalization的概念出自《Batch Normalization: Accelerating Deep Network Training by Reducing ...原创 2020-03-25 22:55:08 · 484 阅读 · 0 评论 -
朴素贝叶斯法详解
文章目录朴素贝叶斯法的学习和分类基本方法后验概率最大化的道理朴素贝叶斯法的参数估计极大似然估计贝叶斯估计补充知识本笔记主要思路和内容源自《统计学习方法》,笔者采取了更易于理解的方式进行解读朴素贝叶斯法的学习和分类基本方法假设输入是一个n维向量的集合,输出是一个类标记y,y的集合有K个元素。定义n维随机向量X代表输入特征,定义随机变量Y代表标签。对于如下训练数据集:T={(x1,y1),...原创 2020-03-21 17:31:06 · 709 阅读 · 0 评论 -
感知器模型代码实现
普通版本人编写感知器模型部分的代码实例如下:class Perception(object): def __init__(self): self.w = None # dim x 1 self.b = 0 self.lr = 0.5 def obj_func(self, xi, yi): return yi*(...原创 2020-03-20 14:07:00 · 1116 阅读 · 0 评论 -
极大似然估计与贝叶斯估计
文章目录极大似然估计核心思想一般步骤具体实例贝叶斯估计核心思想一般步骤具体实例总结极大似然估计核心思想已知某个随机变量的样本集合X符合某种概率分布,但是这个分布的超参数θ\thetaθ还未知。此时即可通过极大似然估计得到θ^\hat \thetaθ^,令估计得到的θ^\hat \thetaθ^使得这个样本集合出现的概率最大。即θ^=argmaxθP(D∣θ)\hat{\boldsymb...原创 2020-03-19 17:10:35 · 812 阅读 · 0 评论 -
图解6种pytorch学习率调整策略
文章目录学习率调整策略基础知识pytorch中的6种学习率调整策略StepLR数学原理代码实例MultiStepLR数学原理代码实例ExponentialLR数学原理代码实例CosineAnnealingLR数学原理代码实例ReduceLRonPlateau数学原理代码实例LambdaLR数学原理代码实例总结该篇笔记整理自余庭嵩的讲解。学习率调整策略基础知识梯度下降算法中的学习率的作用是:...原创 2020-03-16 17:09:11 · 2804 阅读 · 1 评论 -
10种优化迭代算法基础详解及其pytorch实现
基本概念优化器的功能:管理并更新模型中可学习参数的值,使得模型输出更接近真实标签。这里的可学习参数一般就是指权值和偏置了,管理指优化器可以修改哪一部分参数。更新就是优化器的更新策略,每个不同的优化器会采取不同的策略去更新参数的值,这里策略通常是梯度下降。在展开讨论之前,先明确下面几个基本概念:导数:函数在指定坐标轴上的变化率方向导数:指定方向上的变化率梯度:一个向量。方向为使得方向导...原创 2020-03-14 19:43:01 · 5576 阅读 · 0 评论 -
18种损失函数全详解及其PyTorch实现与机制
文章目录基础概念损失函数(Loss Function)代价函数(Cost Function)目标函数(Objective Function)PyTorch实现与机制nn.CrossEntropyLoss功能与使用数学原理信息熵相对熵(KL散度)交叉熵使用实例nn.NLLLoss()功能与使用数学原理nn.BCELoss()功能与使用数学原理nn.BCEWithLogitsLoss()nn.L1Lo...原创 2020-03-09 17:45:56 · 9802 阅读 · 4 评论 -
梯度消失与梯度爆炸原理&初始化方法
文章目录基础概念神经网络中的梯度消失与爆炸解决方法Xavier初始化Kaiming初始化其他初始化方法基础概念在详细了解神经网络中梯度消失与梯度爆炸的原理之前,先来回顾一下如下基本公式:E(X∗Y)=E(X)∗E(Y)D(X)=E(X2)−[E(X)]2D(X+Y)=D(X)+D(Y)\begin{aligned}&\mathbf{E}(\boldsymbol{X} * \bol...原创 2020-03-06 17:22:32 · 891 阅读 · 1 评论