学习笔记
文章平均质量分 93
NirHeavenX
404 error
展开
-
斯坦福机器学习: 网易公开课系列笔记(二)——线性回归、梯度下降算法和最小二乘公式
课程一共分为三个板块,分别讲述了监督学习、非监督学习、增强学习的一些模型和相关算法。那么什么是监督学习?非监督学习?强化学习呢?我们可以这样理解,假如我们对某个地区的鸟类进行分类,为了简便起见,每个鸟类的样本包括{体长,颜色,喙的形状}三个属性,并且通过查阅资料,知道了每个样本代表的是哪种鸟(label),比如{8cm,彩虹色,尖喙}->蜂鸟,我们通过对这些样本属性及其种类进行学习,从而原创 2017-02-17 13:24:16 · 4638 阅读 · 0 评论 -
干货——LSTM详解,关于LSTM的前生今世
最近在做lip reading领域的研究,设计到C3D和RNN的结合,于是仔细观摩了下LSTM的系列论文,总结如下:PPT总长98页,内容包括: 1.conventional LSTM(含BPTT算法的详细讲解) 2.forget gate的提出 3.Peephole mechanism 4.Encoder-Decoder 5.GRU 6.原创 2017-12-15 19:04:40 · 7514 阅读 · 2 评论 -
神经网络知识点汇总——FNN
本文基于文章,对神经网络的知识点做一个总结,可能不会对某些概念性的东西做详细介绍,因此需要对神经网络有基本的了解。FNN:前馈神经网络 神经网络的最基本也是最经典的形式,结果包括输入层,隐藏层和输出层,根据隐藏层的多少,分为shallow network和deep network(deep learning由此而来)Activation function 在神经网络的每原创 2017-09-08 16:44:12 · 11743 阅读 · 0 评论 -
最全的机器学习中的优化算法介绍
在机器学习中,有很多的问题并没有解析形式的解,或者有解析形式的解但是计算量很大(譬如,超定问题的最小二乘解),对于此类问题,通常我们会选择采用一种迭代的优化方式进行求解。 这些常用的优化算法包括:梯度下降法(Gradient Descent),共轭梯度法(Conjugate Gradient),Momentum算法及其变体,牛顿法和拟牛顿法(包括L-BFGS),AdaGrad,Adadelta原创 2017-08-06 12:57:02 · 23183 阅读 · 5 评论 -
sklearn浅析(七)——Support Vector Machines
支持向量机以感知机为原型,但是它的能力要远远强于感知机,svm在回归,分类和异常检测上都有重要作用,并且可以通过kernel trick实现高维数据的非线性分类。关于svm的详细介绍请自行查找,可参考[统计学习方法 李航]和[cs229课程 Andrew Ng] sklearn里面提供了很多svm及其变种,用于不同的应用场景,包括:SVCLinearSVCNuSVCSVRLin原创 2017-07-24 16:28:15 · 3270 阅读 · 0 评论 -
sklearn浅析(六)——Kernel Ridge Regression
Kernel Ridge Regression即使用核技巧的岭回归(L2正则线性回归),它的学习形式和SVR(support vector regression)相同,但是两者的损失函数不同:KRR使用的L2正则均方误差;SVR使用的是待L2正则的ϵ\epsilon-insensitive loss:max(0,|y−hθ(x)|−ϵ)max(0, \vert y-h_\theta(x)\vert-原创 2017-07-24 15:21:48 · 19009 阅读 · 2 评论 -
sklearn浅析(二)——Generalized Linear Models之一
线性回归通过最小化均方误差来拟合一个线性模型,属于监督学习,对于给定的数据集X和类标签y,通过最小二乘法求得模型参数为: w = (XTX)-1XTy原创 2017-07-21 14:03:51 · 3037 阅读 · 0 评论 -
sklearn浅析(五)——Discriminant Analysis
sklearn中的判别分析主要包括两类,LinearDiscriminantAnalysis和QuadraticDiscriminantAnalysisLinearDiscriminantAnalysis 线性判别分析是一种分类模型,它通过在k维空间选择一个投影超平面,使得不同类别在该超平面上的投影之间的距离尽可能近,同时不同类别的投影之间的距离尽可能远,在LDA中,我们假设每一个类别的数据服从高原创 2017-07-24 10:14:16 · 19700 阅读 · 0 评论 -
奇异值分解与最小二乘问题
很多线性回归器的损失函数为均方误差: loss=∥Xw−y∥22loss=\Vert Xw-y\Vert_2^2 求解模型参数,需要最小化损失函数: min∥Xw−y∥22min \Vert Xw-y\Vert_2^2X∈Rm∗n,w∈Rm,,X∈Rn,X \in R^{m*n},w \in R^{m},,X \in R^{n}, 该类问题分为三种情况:1. m=n且X为非奇异原创 2017-07-24 19:49:13 · 10464 阅读 · 3 评论 -
sklearn浅析(八)——近邻算法
近邻(Nearest Neighbor)算法既可以用于监督学习(分类),也可以用于非监督学习(聚类),它通过按照一定方法查找距离预测样本最近的n个样本,并根据这些样本的特征对预测样本做出预测。 在sklearn里,所有的近邻算法位于sklearn.neighbors下,共包含下列13个方法:NearestNeighbors:knn算法,主要用kd-tree和ball-tree实现Ne原创 2017-08-05 14:10:24 · 2643 阅读 · 0 评论 -
sklearn浅析(一)——sklearn的组织结构
sklearn是基于numpy和scipy的一个机器学习算法库,设计的非常优雅,它让我们能够使用同样的接口来实现所有不同的算法调用。本文首先介绍下sklearn内的模块组织和算法类的顶层设计图。三大模块监督学习(supervised learning)1.neighbors:近邻算法svm:支持向量机kernel-ridge:岭回归discriminant_analysis:判别分析lin原创 2017-07-21 13:55:41 · 26799 阅读 · 5 评论 -
sklearn浅析(四)——Generalized Linear Models之三
BayesianRidge 贝叶斯岭回归,求解的是基于gamma先验(假设噪音是服从高斯分布的,那么gamma分布就是其共轭先验)的岭回归,可以理解为正则化项是gamma先验(其实贝叶斯方法中的先验概率在一定程度即是正则化项的作用): w=(XTX+λαI)−1XTyw = (X^TX+\frac{\lambda}{\alpha}I)^{-1}X^Ty 其中λ\lambda的初始值1,α\原创 2017-07-22 14:21:56 · 3165 阅读 · 0 评论 -
sklearn浅析(三)——Generalized Linear Models之二
LASSO LASSO即L1正则线性回归: min12nsamples∥Xw−Y∥22+λ∥w∥1\mathcal min\frac{1}{2n_{samples}}\Vert\mathrm X\mathcal w - \mathrm Y\Vert_2^2+\lambda\Vert\mathcal w\Vert_1 倾向于将部分参数收缩为0LASSO的使用from s原创 2017-07-22 11:59:53 · 1439 阅读 · 0 评论 -
斯坦福机器学习: 网易公开课系列笔记(五)——高斯判别分析、朴素贝叶斯
高斯判别分析(Gaussian discriminant analysis) 判别模型和生成模型 前面我们介绍了Logistic回归,通过学习hΘ(x)来对数据的分类进行预测:给定一个特征向量x→输出分类y∈{0,1}。这类通过直接学习分类决策函数 hΘ(x)或者直接对后验概率分布P(y|x)进行建模的学习方法称为判别方法,得到的模型称为判别模型。如果是直接对P(x|y)进原创 2017-02-20 14:03:33 · 1814 阅读 · 2 评论 -
斯坦福机器学习: 网易公开课系列笔记(一)——课程简介
斯坦福机器学习: 网易公开课系列笔记(一)——课程简介 最近学习了一下网易公开课上由Andrew Ng于08年在斯坦福大学开办的机器学习课程,受益颇深。作为一个刚入门的学习者,可以说吴恩达讲的通俗易懂,之前我是一直在看《统计学习方法》和《机器学习》两本书,上面的一些公式看的比较懵,但是听完这门课后觉得豁然开朗。这门课开设的比较早,再加上近年来机器学习领域的迅猛发展,里面的一些算法可能在现在原创 2017-02-17 09:59:29 · 4956 阅读 · 0 评论 -
斯坦福机器学习: 网易公开课系列笔记(三)——局部加权回归、logistic回归
在上一节中,我们讲到了线性回归的梯度下降和最小二乘的求解方法,但是实际当中,大部分问题并不是线性的,如果用线性方程去拟合这些数据,误差会非常大。 下图中最左边的,是我们用y=Θ0+Θ1x对数据集进行拟合,可以看到数据并没有很好的分布在方程的附近,会产生很大的误差;如果我们添加一个额外是特征x2,并用y=Θ0+Θ1x+Θ2x2进行拟合,可以看到数据被拟合的更好一些;进一步,如果我们添加更原创 2017-02-18 12:07:13 · 2755 阅读 · 0 评论 -
斯坦福机器学习: 网易公开课系列笔记(四)——牛顿法、广义线性模型
牛顿法 给定一个函数图像,如何求得使f(x)=0的x? 首先初始化一个点X0,过f(X0)做函数切线,得到与X轴的交点X1,再过f(X1)做函数切线,得到与X轴的交点X2,以此类推,直至Xn–>X。我们得到X的更新公式:Xn+1=Xn-f(Xn)/f’(Xn) 我们又知道,要求解一个函数的极值就是对该函数求导,令导数f’(x)=0。在我们的优化问题中,我们需要极原创 2017-02-18 22:50:45 · 2227 阅读 · 0 评论 -
coursera机器学习知识补充(一)——正则化在线性回归和Logistic回归的应用
在网易公开课的学习笔记当中,我们讲解了线性回归和Logistic回归模型,提出了可能出现的过拟合问题,这里通过介绍一种正则化的方法,来具体看看如何避免过拟合的。正则化 简单来说,我们在模型的拟合过程中,为了尽可能的减小成本函数,让模型对训练数据更好的拟合,可能倾向于选择增加模型参数,这样就可能会导致过拟合。正则化的方式则是选择在成本函数中增加一个正则化项(Regularization it原创 2017-02-22 14:23:06 · 2285 阅读 · 0 评论 -
详解tensorflow中的Attention机制
最近在做基于attention的唇语识别,无奈网上关于tf中attention的具体实现没有较好的Demo,且版本大多不一致,琐碎而且凌乱,不得不自己翻开源码,阅读一番,收获颇丰,现分享与此。 PS:本文基于tensorflow-gpu-1.4.0版本,阅读前,读者最好对Attention mechanism有一定的了解,不然可能会一头雾水。 tf-1.4.0中,关于attenti...原创 2018-03-13 14:51:31 · 30228 阅读 · 4 评论