Coursera Standford Machine Learning 学习笔记
Andrew 教授貌似很牛的样子,machine learning 的需求很大哟,这是他说的。
什么是supervise learning 监督学习?
据说这是一种很常见的 machine learning 种类。居于现有的data set数据集来预测房价是一个很好的supervisor learning的例子。我们可以用一条straight line直线或者quartic function来预测。原始数据集 就是一组 right answer given 给定的正确答案。
supervisor learning 有两个种类:
术语1: regression problem 回归
回归问题 regression problem: predict a continuous valued output 预测一个连续的数值输出。
learning algorithm will predict the possibility of output
术语2: classification -- discrete output value 0 and 1. 分级 输出是 离散的不连续的, 不一定是两个, 可以是多个。
例如;肿瘤的大小与肿瘤良性与恶性的关系问题。
现实情况下,machine learning 问题通常不止两个考虑点。比如肿瘤问题里 还以有 肿瘤厚度,细胞尺寸和形状的一致性等等。
什么是unsupervised learning?
聚类算法 -- cluster algorithm。
例如 Google News 把千万不同的新闻分为不同的种类。或者organize computing cluster。
unsupervised learning 与 supervised learning的区别是 unsupervised learning 没有基础的正确数据集。就像是一个很大的数据集,我们不知道里面的类型是什么,但是你想让learning算法告诉你 里面的类型是什么或者怎么cluster这些data。
在监督学习中 基础的数据集 叫做training set 训练集。
在课程中被使用的一些表示方法。
m: 训练集的大小
x's 输入属性或者变量
y's 输出
h 代表的一个假设方程用于计算预测房价用。
但是怎样表达 这个假设方程 h 呢?
可以表达为一个线性方程 h(x)= theta1x + theb 这个叫做一个或者单变量的线性回归 one variable or univariate linear regression。
theta 模型参数
什么是 cost function?
idea:choose theta0 and theta1 to fit cloesly to the training set。选取 一对模型参数去尽可能的fit训练集。
这里的 J就是一个cost function 代表的 1/2m 的平方误差。这个函数也叫叫 平方误差代价函数。平方误差函数是一个比较常见的代价函数。我们算法的目的就是尽可能的缩小这个代价函数。
Contour plot 或者 Contour figure
什么是 Gradient descent 梯度下降法?Parameter Learning To minimize function J。
说白了就是找一条最好的下山路线。
:= 代表赋值 =则代表真值断言。
alpha 是learning rate 代表下山的步长。每次计算 theta0 和 theta1的时候,需同时更新。不同时更新也能算,但是不是普遍梯度下降法所引用的。
很常用的machine learning 算法。不停的计算寻找好的路径下到最底。
梯度下降法
learning rate alpha, if it's too small, the process will slow, if it's too big, it may fail to converge due to overshoot.
通常这种不停的梯度下降的方法叫做batch gradient descent。