吴恩达机器学习
文章平均质量分 62
余生最年轻
数学专业的小虾米
博客为自己总结与网上搜集资料而得,如有侵权,请联系删除。
展开
-
机器学习笔记8——大规模机器学习(Large scale machine learning)
概要:大规模机器学习用于处理大数据集一、随机梯度下降法1.1 产生由于梯度下降法(批量梯度下降法,每次都需要考虑所有的样本)在计算规模很大的数据时比较慢,所以产生了随机梯度下降法1.2 定义首先随机打乱所有数,这是数据预处理的过程(本次迭代只需要计算一个样本)二、Mini-batch梯度下降2.1 定义介于梯度下降法和随机梯度下降法之间,每次使用b个样本,b这里就是一个称为mini-batch大小...原创 2018-07-08 10:07:44 · 974 阅读 · 0 评论 -
机器学习笔记1——单变量线性回归
关键字:代价函数,梯度下降话说这个梯度下降法我们的专业课数值线性代数是有的,突然发现数值线性代数果然是有用的啊原创 2018-07-04 22:03:27 · 316 阅读 · 0 评论 -
机器学习笔记2——多变量线性回归
1.定义:顾名思义,多变量线性回归就是变量不止一个。因为是线性的,所以可以表示为其中的ai是有实际意义的,表示当Xi变化一个单位后,对应的Y的变化...原创 2018-07-05 11:10:34 · 322 阅读 · 0 评论 -
机器学习笔记3--逻辑(Logistic)回归
关键字:回归,分类,sigma函数,惩罚项虽然名字里有回归,但是这是一个分类问题1.分类问题此前的回归模型预测的y是一个连续值,但是分类问题里面的y是一个离散值,通常为0或者1,表示否或者是,分别代表负类和正类。更一般的情况是y可以取不止两个离散值。2.定义对于输出为0和1的分类问题,逻辑回归里输出的y不是离散的数,而是在0和1之间的,即[0,1]为输出的范围。逻辑回归里面的输出函数记为,,其图像...原创 2018-07-05 21:03:29 · 402 阅读 · 0 评论 -
机器学习笔记5——系统设计
关键字:偏斜类,查准率,召回率一、垃圾邮件分类的例子1.因为垃圾邮件有一些典型的出现比较多的词,比如buy,diccount,hurry等等,所以可以先从训练集中选择出现频率最高的一些词,把他们放到一个向量里去,这个向量叫特征变量。然后判断的时候就是如果单词出现了,对应的地方就记为1,否则记为0.。最好在交叉验证向量集上做误差分析。二、不对称分类的误差评估和衡量标准1、偏斜类(通常把它的值定义为1...原创 2018-07-06 16:24:47 · 352 阅读 · 0 评论 -
机器学习笔记6——无监督学习(聚类算法)
关键字:K-means算法,聚类中心,畸变函数一、定义与有监督学习相比,无监督学习的样本没有任何标记。无监督学习的算法需要自动找到这些没有标记的数据里面的数据结构和特征。这里介绍一下聚类算法。二、聚类算法2.1 定义把数据集分成一个个的簇cluster(也可以理解为一组一组的形式)2.2 K-means算法(K均值算法)(1)首先随机生成几个点,叫聚类中心(Cluster Centroids)。C...原创 2018-07-07 11:37:30 · 38939 阅读 · 0 评论 -
机器学习笔记7——异常检测(Anomaly Detection)
前言:这是机器学习算法的一个应用,主要用于无监督学习。一、定义 已知有了一些数据,,新来一个数据,需要判断这个数据是否异常。给定无标签数据集,对数据建模为P(x),x为特征变量。如果,就是阈值,那么就认为这是异常。二、利用高斯分布进行异常检测(样本都无标记)1、条件每个数据有n个特征,可以理解为n维,每个特征都服从自己的高斯分布。2、总结步骤三、算法评估(有些样本有标记)3.1 要求通常训练...原创 2018-07-07 20:50:47 · 5163 阅读 · 0 评论 -
机器学习笔记8——推荐系统Recommender Systems
前言:这是机器学习的一个重要应用领域,就像淘宝给你推荐商品一样一、问题规划(电影评分)1.1 符号表示表示用户的数量,下标表示具体的第几个用户表示电影的数量,下标表示具体的第几部电影为1时,表示用户给电影评价了用户对电影评价得分,为0-5表示1.2 问题定义给出,然后预测用户对自己还没有评价的电影可能会给出的评分(就是图里面的问号部分),了解用户可能会喜欢的电影并推荐如上图所示,=4,=5二、基于...原创 2018-07-07 22:21:12 · 1557 阅读 · 0 评论 -
机器学习笔记4——过拟合与正则化
关键字:正则化参数前言:有关代价函数,在笔记2和3逻辑回归和线性回归里面已经提到过。这里就不再过多介绍。一、定义因为训练模型中有些数据本来就有误差,所以不必把每个数据都考虑进去。如果真的完全拟合到每一个数据,那么模型会变得很奇怪,导致新的预测数据来时,对应的预测值往往显然错误。这个现象就是过拟合。与过拟合相对的是欠拟合,这个模型就是非常简单的那种,导致连最基本的训练数据都训练不好。二、过拟合的解决...原创 2018-07-05 22:16:18 · 240 阅读 · 0 评论