Machine Learning\Deep Learning
文章平均质量分 94
运用之妙,存乎一心
莱尼布鲁斯
Blank in mind
展开
-
Neighbor Embedding
PCA和Word Embedding介绍了线性降维的思想,而Neighbor Embedding要介绍的是非线性的降维。Manifold Learning样本点的分布可能是在高维空间里的一个流行(Manifold),也就是说,样本点其实是分布在低维空间里面,只是被扭曲地塞到了一个高维空间里地球的表面就是一个流行(Manifold),它是一个二维的平面,但是被塞到了一个三维空间里在Manifold中,只有距离很近的点欧氏距离(Euclidean Distance)才会成立,而在下图的S型曲面中,欧氏距原创 2021-03-23 23:47:54 · 1058 阅读 · 1 评论 -
Semi-supervised Learning(part Ⅱ)
文章目录Smoothness Assumptiondigits detectionfile classificationclusterGraph-based ApproachSmoothness Assumptionsmoothness用于定义数据的相似度:如果x1x^1x1和x2x^2x2在一个high density region上很接近的话,那么y^1\hat y^1y^1和y^2\hat y^2y^2就是相同的,也就是这两个点可以在样本点高密度集中分布的区域块中有一条可连接的路径(conn原创 2021-03-20 22:10:45 · 420 阅读 · 0 评论 -
Semi-supervised Learning(part Ⅰ)
文章目录IntroductionSemi-supervised Learning for Generative ModelSupervised Generative ModelSemi-supervised Generative ModelLow-density Separation AssumptionEntropy-based RegularizationSemi-supervised SVMIntroductionSupervised Learning与Semi-supervised Learn原创 2021-03-20 22:10:08 · 418 阅读 · 0 评论 -
Matrix Factorization
文章目录肥宅买公仔matrix expressionsolutionpredictionother fectorsTopic Analysis假设存在两种对象,它们之间存在某种联系,并且它们各自存在某种属性(称为潜在因素latent factor),我们希望通过现存的联系来分析出它们各自的属性,从而对它们的后继行为进行预测,这也是推荐系统常用的方法之一。肥宅买公仔以肥宅买公仔为例,假设每个公仔有傲娇的属性或天然呆的属性,而每个肥宅有偏爱傲娇的属性或偏爱天然呆的属性,那偏爱傲娇的肥宅会更多地购买具有傲原创 2021-03-18 22:40:16 · 576 阅读 · 0 评论 -
PCA(part Ⅱ)
Reconstruction Component可以把手写数字识别中的数字看做是由类似于笔画的basic component组成的,这个basic component集合包含了能够构成所有数字的基本笔画。从另一个角度看,basic component集合代表着数字所具有的所有基本特征,每个数字由这些基本特征组成,具有或不具有某个特征。写成表达式就是:x≈c1u1+c2u2+...+ckuk+xˉx≈c_1u^1+c_2u^2+...+c_ku^k+\bar xx≈c1u1+c2u2+...+ck原创 2021-03-18 20:09:13 · 362 阅读 · 0 评论 -
PCA(part Ⅰ)
PCA for 1-DPCA的目的是要将原有数据投影到新的空间,通过观察全局数据特点对数据赋予新的属性后进行转换,做到降维的同时尽可能增加数据的区分度。数据映射假设现在有样本数据object xxx和投影方向向量w1w^1w1,z=w1⋅xz=w^1\cdot xz=w1⋅x则代表着将object投影到该方向上,其中w1w^1w1作为方向向量其长度为1,即∣∣w1∣∣2=1||w^1||_2=1∣∣w1∣∣2=1。那我们到底要找什么样的w1w^1w1呢?假设我们现在已有的宝可梦样本点分布如下,原创 2021-03-18 20:08:53 · 450 阅读 · 0 评论 -
Unsupervised Learning Introduction
无监督学习中的数据(x,y^)(x,\hat y)(x,y^)通常只有特征xxx和标签y^\hat yy^中的一个,无监督学习(Unsupervised Learning)可以分为两种:化繁为简(Clustering & Dimension Reduction)无中生有(Generation)Clustering对于只有特征xxx的数据集来说,Clustering就是对数据集进行分类,将具有相同特征的数据集聚合成为一个Cluster。对于每一个Cluster实际代表空间中的一个数据原创 2021-03-18 20:08:22 · 396 阅读 · 0 评论 -
RNN(part Ⅱ)
Training在Slot Filling的例子,我们需要把model的输出yiy^iyi与映射到slot的reference vector求交叉熵,比如“Taipei”对应到的是“dest”这个slot,则reference vector在“dest”位置上值为1,其余维度值为0RNN的output和reference vector的cross entropy之和就是损失函数,也是要minimize的对象需要注意的是,word要依次输入model,比如“arrive”必须要在“Taipei”前输入,原创 2021-03-12 22:57:46 · 448 阅读 · 0 评论 -
RNN(part Ⅰ)
Slot Fillingslot filling技术用在智能客服、智能订票系统中,分析用户说出的语句,判断某个词属于时间或地址的概率,将语句中时间、地址等有效的关键词填到对应的槽上,并过滤掉无效的词语。若使用DNN来分析语句,则将会忽视语句的特定顺序以及语句中词汇的前后联系,这时希望神经网络有记忆,在分析完前一个词汇后会对后一个词汇的分析产生影响,例如有两个句子“arrive Taipei”和“leave Taipei”,DNN在处理完“arrive”或“leave”后同时处理“Taipei”,若没有前原创 2021-03-12 22:57:06 · 245 阅读 · 0 评论 -
机器学习中的bias和variance
偏差(Bias)和方差(Variance)——机器学习中的模型选择原创 2021-02-27 17:34:31 · 847 阅读 · 0 评论 -
Gradient Descent
在回归问题中,需要解决下面的最优化问题:θ∗=arg minθL(θ)\theta^∗= \underset{ \theta }{\operatorname{arg\ min}} L(\theta) θ∗=θarg minL(θ)LLL :lossfunction(损失函数)θ\thetaθ :parameters(参数)L指损失函数,评判预测模型的性能,比如均方误差MSE,平方误差SEθ\thetaθ 指代损失函数中的参数,比如线性回归中的 www 和 bbb 。原创 2021-02-27 17:36:01 · 214 阅读 · 0 评论 -
Classification: Probabilistic Generative Model(概率生成模型)
概率模型实现原理盒子抽球后验概率问题假设两个盒子,各装了5个球,抽到盒子1中球的概率是 2/32/32/3,是盒子2中球的概率是1/31/31/3。在盒子1中随机抽一个球,是蓝色的概率为 4/54/54/5,绿的的概率为 1/51/51/5在盒子2中随机抽一个球,是蓝色的概率为 2/52/52/5,绿的的概率为 3/53/53/5问:随机从两个盒子中抽一个球,抽到蓝色球属于盒子1的概率是多少?P(B1∣Blue)=P(Blue∣B1)P(B1)P(Blue∣B1)P(B1)+P(Blue原创 2021-02-27 17:35:29 · 687 阅读 · 0 评论 -
Logistic Regression
处理二元分类问题的generative model中,以高斯分布为model拟合样本数据,利用贝叶斯公式计算概率:P(C1∣x)=P(C1)P(x∣C1)P(C1)P(x∣C1)+P(C2)P(x∣C2)P(C_1|x)=\frac{P(C_1)P(x|C_1)}{P(C_1)P(x|C_1)+P(C_2)P(x|C_2)}P(C1∣x)=P(C1)P(x∣C1)+P(C2)P(x∣C2)P(C1)P(x∣C1)极大似然估计法计算出C1C_1C1和C2C_2C2高斯分布期望μ1\m原创 2021-02-27 17:34:58 · 504 阅读 · 1 评论 -
Fully Connect Feedforward Network
Neural Network将多个Logistic Regression以不同的结构前后连接起来,叫做Neural Network,其中每一个Logistic Regression是一个neuron。Fully Connect Feedforward Network(全连接前馈网络)input layer,输入层(严格来说input layer其实不是一个layer,并不由neural所组成的)output layer,输出层hidden layer,隐藏层前向计算Neural输出公原创 2021-02-27 17:37:16 · 2495 阅读 · 0 评论 -
Backpropagation
Backpropagation里面并没有什么高深的数学,你唯一需要记得的就只有Chain Rule(链式法则)对整个neural network,我们定义了一个loss function:L(θ)=∑n=1Nln(θ)L(\theta)=\sum\limits_{n=1}^N l^n(\theta)L(θ)=n=1∑Nln(θ),它等于所有training data的loss之和我们把training data里任意一个样本点xnx^nxn代到neural network里面,它会output一个y原创 2021-02-27 17:37:56 · 296 阅读 · 0 评论 -
Vanishing gradient and activiation funcation(ReLU、Maxout)
文章目录Vanishing gradientReLUthinner linear networkHow to trainReLU-variantMaxoutthinner linear networkLearnable FeatureMaxout→\rightarrow→ReLUMaxout→\rightarrow→more than ReLUHow to trainSummary在手写数字识别的训练准确度的实验,使用sigmoid function。可以发现当层数越多,训练结果越差,训练集上准确度就下原创 2021-02-27 17:38:20 · 549 阅读 · 0 评论 -
Regularization(L1、L2)
文章目录L2 regularizationL2 regularization in deep learningL1 regularizationL1 regularization in deep learningL1 vs L2deep learning可以作为很复杂的model,很复杂的model可以很容易在训练数据集中学到更多的东西,对训练数据拟合的非常好,这就很容易造成overfitting的现象,那regularization就可以一定程度避免这一现象发生,regularization就是在lo原创 2021-02-27 17:39:32 · 700 阅读 · 1 评论 -
Optimizier(AdaGrad、RMSProp、Momentum、Adam)
AdaGrad公式:θt+1=θt−ησtgtσt=∑i=0t(gi)2\theta^{t+1}=\theta^t-\frac{\eta}{\sigma^t}g^t\\\sigma^t=\sqrt{\sum\limits_{i=0}^t(g^i)^2}θt+1=θt−σtηgtσt=i=0∑t(gi)2learning rate设置为一个固定的初始值 η\etaη 除以一个变化的值 σ\sigmaσσ\sigmaσ是对过程中所有梯度的平方和求根Adagrad的特性:(Review原创 2021-02-27 17:38:59 · 362 阅读 · 1 评论 -
Dropout
Training of DropoutDropout的做法是每次对一个batch训练集做训练前对network中的每一个neuron(包括input layer的neuron),做sampling(抽样) ,每个neuron都有p%的几率会被丢掉,如果某个neuron被丢掉的话,跟它相连的权值www也都要被丢掉,剩下的neuron组成一个thinner network,batch训练集中的data全部以此dropout后的这个thinner network为结构做训练,并计算损失更新参数。原创 2021-02-27 17:38:38 · 489 阅读 · 0 评论 -
CNN
可以用一般的DNN来做影像处理,比如,做图像的分类,训练一个neural network,它的input是一张图片,将这张图片的pixel flatten成一个vector,而output则是由图像类别组成的vector。最终在训练好的network structure里面的每一个neuron都代表了一个最基本的classifier,每个classifier都用于识别某种基本的pattern,当某个图像中存在某个classifier可以识别的pattern,那对应neuron将被激活,对后续更复杂neu原创 2021-02-28 21:33:16 · 400 阅读 · 0 评论 -
CNN Application
filter pattern这里希望了解filter能够识别pattern究竟是什么,首先定义filter的激活程度。Degree of the activation of filter:A=∑i=1n∑j=1naijA=\sum\limits^{n}_{i=1}\sum\limits^{n}_{j=1} a_{ij}A=i=1∑nj=1∑naijaija_{ij}aij:filter对image卷积后的矩阵元素也就是把filter对image进行卷积后输出的矩阵元素全部加和,当原创 2021-02-28 21:33:38 · 478 阅读 · 0 评论