学习笔记_NirHeavenX的博客-CSDN博客

学习笔记

关注

文章平均质量分 93

关注数：文章数：19 文章阅读量：180859 文章收藏量：492

作者: NirHeavenX

404 error

展开

斯坦福机器学习：网易公开课系列笔记（二）——线性回归、梯度下降算法和最小二乘公式

课程一共分为三个板块，分别讲述了监督学习、非监督学习、增强学习的一些模型和相关算法。那么什么是监督学习？非监督学习？强化学习呢?我们可以这样理解，假如我们对某个地区的鸟类进行分类，为了简便起见，每个鸟类的样本包括{体长，颜色，喙的形状}三个属性，并且通过查阅资料，知道了每个样本代表的是哪种鸟（label），比如{8cm，彩虹色，尖喙}->蜂鸟，我们通过对这些样本属性及其种类进行学习，从而

原创 2017-02-17 13:24:16 · 4638 阅读 · 0 评论
干货——LSTM详解，关于LSTM的前生今世

最近在做lip reading领域的研究，设计到C3D和RNN的结合，于是仔细观摩了下LSTM的系列论文，总结如下：PPT总长98页，内容包括： 1.conventional LSTM（含BPTT算法的详细讲解） 2.forget gate的提出 3.Peephole mechanism 4.Encoder-Decoder 5.GRU 6.

原创 2017-12-15 19:04:40 · 7514 阅读 · 2 评论
神经网络知识点汇总——FNN

本文基于文章，对神经网络的知识点做一个总结，可能不会对某些概念性的东西做详细介绍，因此需要对神经网络有基本的了解。FNN：前馈神经网络神经网络的最基本也是最经典的形式，结果包括输入层，隐藏层和输出层，根据隐藏层的多少，分为shallow network和deep network（deep learning由此而来）Activation function 在神经网络的每

原创 2017-09-08 16:44:12 · 11743 阅读 · 0 评论
最全的机器学习中的优化算法介绍

在机器学习中，有很多的问题并没有解析形式的解，或者有解析形式的解但是计算量很大（譬如，超定问题的最小二乘解），对于此类问题，通常我们会选择采用一种迭代的优化方式进行求解。这些常用的优化算法包括：梯度下降法（Gradient Descent），共轭梯度法（Conjugate Gradient），Momentum算法及其变体，牛顿法和拟牛顿法（包括L-BFGS），AdaGrad，Adadelta

原创 2017-08-06 12:57:02 · 23183 阅读 · 5 评论
sklearn浅析（七）——Support Vector Machines

支持向量机以感知机为原型，但是它的能力要远远强于感知机，svm在回归，分类和异常检测上都有重要作用，并且可以通过kernel trick实现高维数据的非线性分类。关于svm的详细介绍请自行查找，可参考[统计学习方法李航]和[cs229课程 Andrew Ng] sklearn里面提供了很多svm及其变种，用于不同的应用场景，包括：SVCLinearSVCNuSVCSVRLin

原创 2017-07-24 16:28:15 · 3270 阅读 · 0 评论
sklearn浅析（六）——Kernel Ridge Regression

Kernel Ridge Regression即使用核技巧的岭回归（L2正则线性回归），它的学习形式和SVR（support vector regression）相同，但是两者的损失函数不同：KRR使用的L2正则均方误差；SVR使用的是待L2正则的ϵ\epsilon-insensitive loss：max(0,|y−hθ(x)|−ϵ)max(0, \vert y-h_\theta(x)\vert-

原创 2017-07-24 15:21:48 · 19009 阅读 · 2 评论
sklearn浅析（二）——Generalized Linear Models之一

线性回归通过最小化均方误差来拟合一个线性模型，属于监督学习，对于给定的数据集X和类标签y，通过最小二乘法求得模型参数为： w = (XTX)-1XTy

原创 2017-07-21 14:03:51 · 3037 阅读 · 0 评论
sklearn浅析（五）——Discriminant Analysis

sklearn中的判别分析主要包括两类，LinearDiscriminantAnalysis和QuadraticDiscriminantAnalysisLinearDiscriminantAnalysis 线性判别分析是一种分类模型，它通过在k维空间选择一个投影超平面，使得不同类别在该超平面上的投影之间的距离尽可能近，同时不同类别的投影之间的距离尽可能远，在LDA中，我们假设每一个类别的数据服从高

原创 2017-07-24 10:14:16 · 19700 阅读 · 0 评论
奇异值分解与最小二乘问题

很多线性回归器的损失函数为均方误差： loss=∥Xw−y∥22loss=\Vert Xw-y\Vert_2^2 求解模型参数，需要最小化损失函数： min∥Xw−y∥22min \Vert Xw-y\Vert_2^2X∈Rm∗n,w∈Rm,,X∈Rn,X \in R^{m*n},w \in R^{m},,X \in R^{n}, 该类问题分为三种情况：1. m=n且X为非奇异

原创 2017-07-24 19:49:13 · 10464 阅读 · 3 评论
sklearn浅析（八）——近邻算法

近邻（Nearest Neighbor）算法既可以用于监督学习（分类），也可以用于非监督学习（聚类），它通过按照一定方法查找距离预测样本最近的n个样本，并根据这些样本的特征对预测样本做出预测。在sklearn里，所有的近邻算法位于sklearn.neighbors下，共包含下列13个方法：NearestNeighbors：knn算法，主要用kd-tree和ball-tree实现Ne

原创 2017-08-05 14:10:24 · 2643 阅读 · 0 评论
sklearn浅析（一）——sklearn的组织结构

sklearn是基于numpy和scipy的一个机器学习算法库，设计的非常优雅，它让我们能够使用同样的接口来实现所有不同的算法调用。本文首先介绍下sklearn内的模块组织和算法类的顶层设计图。三大模块监督学习（supervised learning）1.neighbors：近邻算法svm：支持向量机kernel-ridge：岭回归discriminant_analysis：判别分析lin

原创 2017-07-21 13:55:41 · 26799 阅读 · 5 评论
sklearn浅析（四）——Generalized Linear Models之三

BayesianRidge 贝叶斯岭回归，求解的是基于gamma先验（假设噪音是服从高斯分布的，那么gamma分布就是其共轭先验）的岭回归，可以理解为正则化项是gamma先验（其实贝叶斯方法中的先验概率在一定程度即是正则化项的作用）： w=(XTX+λαI)−1XTyw = (X^TX+\frac{\lambda}{\alpha}I)^{-1}X^Ty 其中λ\lambda的初始值1，α\

原创 2017-07-22 14:21:56 · 3165 阅读 · 0 评论
sklearn浅析（三）——Generalized Linear Models之二

LASSO LASSO即L1正则线性回归： min12nsamples∥Xw−Y∥22+λ∥w∥1\mathcal min\frac{1}{2n_{samples}}\Vert\mathrm X\mathcal w - \mathrm Y\Vert_2^2+\lambda\Vert\mathcal w\Vert_1 倾向于将部分参数收缩为0LASSO的使用from s

原创 2017-07-22 11:59:53 · 1439 阅读 · 0 评论
斯坦福机器学习：网易公开课系列笔记（五）——高斯判别分析、朴素贝叶斯

高斯判别分析(Gaussian discriminant analysis) 判别模型和生成模型前面我们介绍了Logistic回归，通过学习hΘ(x)来对数据的分类进行预测：给定一个特征向量x→输出分类y∈{0,1}。这类通过直接学习分类决策函数 hΘ(x)或者直接对后验概率分布P(y|x)进行建模的学习方法称为判别方法，得到的模型称为判别模型。如果是直接对P(x|y)进

原创 2017-02-20 14:03:33 · 1814 阅读 · 2 评论
斯坦福机器学习：网易公开课系列笔记（一）——课程简介

斯坦福机器学习：网易公开课系列笔记（一）——课程简介最近学习了一下网易公开课上由Andrew Ng于08年在斯坦福大学开办的机器学习课程，受益颇深。作为一个刚入门的学习者，可以说吴恩达讲的通俗易懂，之前我是一直在看《统计学习方法》和《机器学习》两本书，上面的一些公式看的比较懵，但是听完这门课后觉得豁然开朗。这门课开设的比较早，再加上近年来机器学习领域的迅猛发展，里面的一些算法可能在现在

原创 2017-02-17 09:59:29 · 4956 阅读 · 0 评论
斯坦福机器学习：网易公开课系列笔记（三）——局部加权回归、logistic回归

在上一节中，我们讲到了线性回归的梯度下降和最小二乘的求解方法，但是实际当中，大部分问题并不是线性的，如果用线性方程去拟合这些数据，误差会非常大。下图中最左边的，是我们用y=Θ0+Θ1x对数据集进行拟合，可以看到数据并没有很好的分布在方程的附近，会产生很大的误差；如果我们添加一个额外是特征x2,并用y=Θ0+Θ1x+Θ2x2进行拟合，可以看到数据被拟合的更好一些；进一步，如果我们添加更

原创 2017-02-18 12:07:13 · 2755 阅读 · 0 评论
斯坦福机器学习：网易公开课系列笔记（四）——牛顿法、广义线性模型

牛顿法给定一个函数图像，如何求得使f(x)=0的x？首先初始化一个点X0，过f(X0)做函数切线，得到与X轴的交点X1，再过f(X1)做函数切线，得到与X轴的交点X2，以此类推，直至Xn–>X。我们得到X的更新公式：Xn+1=Xn-f(Xn)/f’(Xn) 我们又知道，要求解一个函数的极值就是对该函数求导，令导数f’(x)=0。在我们的优化问题中，我们需要极

原创 2017-02-18 22:50:45 · 2227 阅读 · 0 评论
coursera机器学习知识补充（一）——正则化在线性回归和Logistic回归的应用

在网易公开课的学习笔记当中，我们讲解了线性回归和Logistic回归模型，提出了可能出现的过拟合问题，这里通过介绍一种正则化的方法，来具体看看如何避免过拟合的。正则化简单来说，我们在模型的拟合过程中，为了尽可能的减小成本函数，让模型对训练数据更好的拟合，可能倾向于选择增加模型参数，这样就可能会导致过拟合。正则化的方式则是选择在成本函数中增加一个正则化项(Regularization it

原创 2017-02-22 14:23:06 · 2285 阅读 · 0 评论
详解tensorflow中的Attention机制

最近在做基于attention的唇语识别，无奈网上关于tf中attention的具体实现没有较好的Demo，且版本大多不一致，琐碎而且凌乱，不得不自己翻开源码，阅读一番，收获颇丰，现分享与此。 PS：本文基于tensorflow-gpu-1.4.0版本，阅读前，读者最好对Attention mechanism有一定的了解，不然可能会一头雾水。 tf-1.4.0中，关于attenti...

原创 2018-03-13 14:51:31 · 30228 阅读 · 4 评论

学习笔记

作者: NirHeavenX

斯坦福机器学习： 网易公开课系列笔记（二）——线性回归、梯度下降算法和最小二乘公式

干货——LSTM详解，关于LSTM的前生今世

神经网络知识点汇总——FNN

最全的机器学习中的优化算法介绍

sklearn浅析（七）——Support Vector Machines

sklearn浅析（六）——Kernel Ridge Regression

sklearn浅析（二）——Generalized Linear Models之一

sklearn浅析（五）——Discriminant Analysis

奇异值分解与最小二乘问题

sklearn浅析（八）——近邻算法

sklearn浅析（一）——sklearn的组织结构

sklearn浅析（四）——Generalized Linear Models之三

sklearn浅析（三）——Generalized Linear Models之二

斯坦福机器学习： 网易公开课系列笔记（五）——高斯判别分析、朴素贝叶斯

斯坦福机器学习： 网易公开课系列笔记（一）——课程简介

斯坦福机器学习： 网易公开课系列笔记（三）——局部加权回归、logistic回归

斯坦福机器学习： 网易公开课系列笔记（四）——牛顿法、广义线性模型

coursera机器学习知识补充（一）——正则化在线性回归和Logistic回归的应用

详解tensorflow中的Attention机制

斯坦福机器学习：网易公开课系列笔记（二）——线性回归、梯度下降算法和最小二乘公式

斯坦福机器学习：网易公开课系列笔记（五）——高斯判别分析、朴素贝叶斯

斯坦福机器学习：网易公开课系列笔记（一）——课程简介

斯坦福机器学习：网易公开课系列笔记（三）——局部加权回归、logistic回归

斯坦福机器学习：网易公开课系列笔记（四）——牛顿法、广义线性模型