stanford机器学习学习笔记
文章平均质量分 71
mike112223
深度学习,计算机视觉
展开
-
最大似然估计(MLE)和最大后验概率(MAP)
转载自 http://www.cnblogs.com/sylvanas2012/p/5058065.html1) 最大似然估计 MLE给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即“模型已定,参数未知”。例如,我们知道这个分布是正态分布,但是不知道均值和方差;或者是二项分布,但是不知道均值。 最大似然估计(MLE,Maximum Likeli...转载 2017-07-14 16:24:52 · 636 阅读 · 0 评论 -
机器学习(十三)- Backpropagation in Practice
Unrolling Parameters对于神经网络的操作,一般都是基于矩阵的: θ(1),θ(2),θ(3),D(1),D(2),D(3),θ(1),θ(2),θ(3),D(1),D(2),D(3),\theta^{(1)},\theta^{(2)},\theta^{(3)},\\D^{(1)},D^{(2)},D^{(3)}, 为了能够使用优化方程,如”fminunc()”,我们需要...原创 2017-07-24 15:25:07 · 298 阅读 · 0 评论 -
机器学习(二十一) - Anomaly Detection
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...转载 2017-08-02 15:35:47 · 618 阅读 · 0 评论 -
机器学习(十四) - Evaluating a Learning Algorithm
Deciding What to Try Next当我们已经完成了模型的选择与训练,最后发现对于新的数据集,我们的模型误差很大,我们该怎么办。我们有接下来的一些方法去解决这个问题:获取更多的训练集减少特征数量选择更多的特征增加高次项的特征(x21,x21,x1x2,etc.x12,x12,x1x2,etc.x_1^{2},x_1^{2},x_1x_2,etc.)减少λλ\lamb...原创 2017-07-25 16:15:47 · 452 阅读 · 0 评论 -
机器学习(八)- Overfitting
Overfitting问题什么是overfitting从overfitting这个词的字面上看来就是过度拟合,我们知道的,不管什么东西,过度了一般都是不好的。 overfitting:如果我们选取了太多太多的特征,那么通过学习的模型将会几乎完美的拟合我们的训练集,但是同时这将导致模型不能很好的拟合新的样本。(泛化能力低下) 当然光看概念真的是似懂非懂的,接下来配上两幅图你可能就明白...原创 2017-07-19 10:16:08 · 1818 阅读 · 0 评论 -
机器学习(十六) - Machine Learning System Design
Building a Spam ClassifierPrioritizing What to Work On假设我们现在有一个任务,是建立一个垃圾邮件分类器。首先我们想到可以通过邮件里的内容来进行分类,比如人工选出100个词,作为100个特征xjxjx_j,如果该词存在于邮件当中就将该词对应的xjxjx_j置为1,否则为0。当我们建立好训练集,就可以开始对模型进行训练,训练完成之后就可...原创 2017-07-27 14:11:06 · 879 阅读 · 0 评论 -
机器学习(二十二)- Recommender Systems
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...原创 2017-08-03 16:57:21 · 423 阅读 · 0 评论 -
机器学习(十五) - Bias vs. Variance
Diagnosing Bias vs. Variance讲完模型选择,我们接下来讲讲如何去诊断我们算法出现的问题到底是一个high bias(underfitting)的问题还是一个high variance(overfitting)的问题又或者同时两个问题同时存在,因为几乎所有的导致test error不理想的原因都来自于这三种情况中的一种。 我们还是从我们最熟悉的一张图引入(线性拟合):...原创 2017-07-26 15:24:19 · 4842 阅读 · 0 评论 -
机器学习(二十三)- Large Scale Machine Learning
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...原创 2017-08-04 14:58:11 · 797 阅读 · 0 评论 -
机器学习(十八) - SVMs - Kernels
kernels上一篇,我们讨论的都是在进行线性分类的情况,接下来当然需要讨论SVMs作为非线性分类器的情况,完成非线性分类的核心思想就是引入所谓核函数的一个东西。 如下图,我们现在要对这样一个数据集进行分类,我们能想到的一种方法就是利用高次项来进行拟合,但是在处理复杂的问题的时候,高次项会大大增加我们的运算负荷,于是就想能不能选择别的更好的特征呢。答案当然是肯定的,也就是kernel。 ...原创 2017-07-28 14:02:46 · 484 阅读 · 0 评论 -
机器学习(十)- Neural Network representation
Non-linear hypotheses我们继续讨论分类的话题,对于之前的较为简单的逻辑回归来说,我们一直在讨论2个参数的情况,是因为它直观,我们可以在二维平面上直接展示出来,利于我们学习,就例如下图左上角的一个非线性分类,我们想要去拟合一条二维曲线。 但是当参数增多,如上图假设我们有100个参数,如果进行参数组合成特征,光2次项就会有大约5000左右的feature,3次项会有大约1...原创 2017-07-20 17:11:29 · 637 阅读 · 0 评论 -
机器学习(十二) - Backpropagation
Backpropagation接着神经网络模型,我们开始讲讲神经网络是怎么训练参数的,那么首先就需要知道神经网络的代价函数是什么。cost function 对于分类任务来说,神经网络的代价函数和逻辑回归的代价函数非常相似,神经网络前一项多的∑Kk=1∑k=1K\sum_{k=1}^K是因为多分类的关系,神经神经网络的输出是一个向量,那么有多少个分类,K就是多少。后一项是正则项,...原创 2017-07-21 18:12:55 · 666 阅读 · 0 评论 -
机器学习(二十) - K-means
K-Means AlgorithmK-means是一个非常经典的非监督学习聚类算法,因为数据集不带有标签,我们只去探究数据所表现出的某种结构。 K-means算法非常简单,用下面一张图就可以表示了。 具体步骤: 1. 人为选取K值(即要聚类的个数)。 2. 随机选取K个数据点作为K个初始中心(centroid),并标记为1到K。 3. 对每个数据点(m个)分别计算到K个ce...原创 2017-08-01 17:39:51 · 602 阅读 · 0 评论 -
机器学习(一)- feature scaling
feature scalingfeature scaling(特征缩放)的思想就是将所选特征的value都缩放到一个大致相似的范围。这样做的目的是为了加快收敛,减少采用梯度下降算法迭代的次数。那么为什么feature scaling能做到这点呢。 下面我们将利用stanford的Andrew Ng教授的PPT来说明。 首先,“将所选特征的value都缩放到一个大致相似的范围”这句话在代...原创 2017-07-10 14:49:54 · 8352 阅读 · 0 评论 -
机器学习(二)- learning rate
learning rate本文就不讲什么是learning rate了,还是讲讲Andrew Ng所讲的一些小tips和自己的理解。 如何判断我们选的learning rate起作用了呢,那就是画一张下面这样的图,代价函数-迭代次数曲线图,如果呈现下面这种一路下降的情况,那就说明梯度下降算法起作用了。当然一般情况下是不可能perfect fitting的,所以我们根据实际情况设置一个阈值,当...原创 2017-07-13 16:29:52 · 6372 阅读 · 0 评论 -
机器学习(三)- normal equation
normal equation对于线性规划问题来说,除了使用梯度下降,我们还是可以使用normal equation(正规方程),非常简单的函数完成一步求解,不需要反复迭代: θ=(XTX)−1XTyθ=(XTX)−1XTy\theta=(X^TX)^{-1}X^Ty 接下来举个例子就一目了然了。 既然有如此简洁的方法,相比之下梯度下降算法一下就落于下风。 当然对于这两种方法,各有...原创 2017-07-13 18:31:23 · 806 阅读 · 0 评论 -
机器学习(四)- linear regression
linear regression线性回归很简单,就是运用我们已知的数据集(training set)去拟合出一组θθ\theta,等同于在空间中拟合出了一条曲线,然后我们就可以利用下面的方程进行数据预测了。当然这些都是在我们已经完成了特征选取和模型假设之后,特征选取就是xxx向量中的每个值(比如对于预测房价,我们觉得可能跟房子大小和卧室个数有关,所以我们的 xxx就有两个值,一个代表房子大小...原创 2017-07-14 15:24:18 · 450 阅读 · 0 评论 -
机器学习(五)- 对于cost function的思考
logistic regression和linear regression的代价函数的思考谈到逻辑回归,必然逃不开与线性回归的比较。自然它们有很多不同,今天在这里主要讲讲自己对于它们代价函数的思考。 Andrew Ng教授在讲到逻辑回归的时候提到逻辑回归的代价函数本身是由统计学中最大似然估计得来的。于是趁这个机会又去百度了几篇博客,复习复习最大似然估计与最大后验概率,顺手还转载了一篇,觉得写...原创 2017-07-14 17:30:28 · 1559 阅读 · 0 评论 -
机器学习(七)- logistic regression
logistic regression对于逻辑回归,就是运用已知的数据集(training set)去拟合一组θθ\theta,等同于在空间中拟合出一条曲线,不过这条曲线不同于线性回归,这条曲线是用于空间划分,对于二分类,就是用曲线将平面划分成两个区域,那么对于这两个不同的区域θTxθTx\theta^Tx对应于大于等于0和小于0,随后再代入g(z)g(z)g(z)即sigmoid函数的时候,...原创 2017-07-18 18:34:19 · 436 阅读 · 0 评论 -
机器学习(九)- Regularization
Regularization承接上一篇overfitting,我们来讲一讲关于Regularization正则化。 正则化本质上就是保留所有的特征的同时,简化我们的模型,使得我们的模型经过学习之后不会过拟合。所谓的简化模型呢,就是让特征参数变得很小,越小说明这个特征占的比重就小,对模型的影响就小,模型就相对简单。 我们以线性回归为例,直观看来,就是让复杂的曲线变得平滑,就相当于下图中的θ3...原创 2017-07-19 16:59:16 · 486 阅读 · 0 评论 -
机器学习(十一)- Multiclass Classification
Multiclass Classification其实多分类问题,之前就要讲的,但是正好programming exercies 3有关于用神经网络进行多分类的作业,于是就在这里一起讲了,正好比较一下逻辑回归和神经网络的多分类的区别。 之前一直讲的都是二分类问题,对于现实生活,这显然是不够的,更多的用到的是多分类。逻辑回归对于二分类,y只有0,1,那么对于多分类的话,y自然就不止...原创 2017-07-20 18:27:17 · 13497 阅读 · 0 评论 -
机器学习(十九) - PCA数学原理
转载自:http://blog.codinglabs.org/articles/pca-tutorial.html 向量的表示及基变换既然我们面对的数据被抽象为一组向量,那么下面有必要研究一些向量的数学性质。而这些数学性质将成为后续导出PCA的理论基础。内积与投影下面先来看一个高中就学过的向量运算:内积。两个维数相同的向量的内积被定义为:(a1,a2,⋯,...转载 2017-08-01 16:02:53 · 455 阅读 · 0 评论 -
机器学习(十七)- SVMs - Large Margin Classification
Large Margin ClassificationOptimization Objective对于SVMs,我们从目标函数开始讲起,由于SVM的目标函数和逻辑回归的目标函数很相似,所以我们从逻辑回归的目标函数开始一点点给出区别。 第一,不再使用−log11+e−z−log11+e−z-\log\frac{1}{1+e^{-z}},而是将其替换为一个cost1(z)cost1(z...原创 2017-07-28 10:16:06 · 3936 阅读 · 2 评论