1 机器学习的类型
1.1 有监督学习
在现实世界中使用的更多的一种机器学习类型,并且进步和创新都很快。
常见的有监督学习是指学习从x到y或者从输入到输出的映射的算法,如波士顿房价的预测和肿瘤的判断。波士顿房价是回归算法,而肿瘤的判断则是分类算法。回归是连续的,而分类是离散的。
监督学习的关键特征是提供学习算法的实例以供学习,就是说给到的数据集中需要包括正确答案,学习算法通过查看给定的输入数据x和正确输出数据y来进行训练学习,最终可以只看输入数据不需要输出就可以预测到输出数据。
1.2 无监督学习
在无监督学习中,数据仅带有输入而没有输出,算法需要找到数据中的某一种结构。无监督学习算法可能会决定将数据分配给两个不同的组或者两个不同的集群,这是一个特殊的无监督学习算法叫做聚类算法,获取无标签的数据并尝试自动将他们分组到集群中。比如百度搜索就是用的聚类算法,无监督算法会自动检测最近的包含搜索信息的新闻。客户分类也属于无监督算法,根据客户的一些信息对他们进行分类,但是由于并没有输出标签,所以并不属于分类算法。异常检测和降维(将大数据集压缩成小的数据集,丢失尽可能少的数据)也都是无监督算法的两种。
2 线性回归和损失函数
2.1 线性回归模型
比如上文说的波士顿房价问题就是典型的线性回归问题,在机器学习中,回归算法会有一个训练集,注意这时想要预测的房价不在训练集中,这里的房子面积称为输入变量,也叫特征值或输入特征(表示输入的标准符号是小写的x),房子的价格是输出变量,也称为目标变量(标准符号是小写的y)。将训练集提供给算法,监督学习算法会产生一个函数f,f的功能就是采用新的是输入并进行预测输出。此时函数f称为模型,x是输入特征,而输出则是模型的预测输出。
2.2 损失函数
假设模型fw,b(x)=wx+b,如果我们选择了直线去拟合数据,现在的问题就是如何去找到w和b的值,以便所以的预测值可以更接近真实值。为了权衡拟合程度将构建一个损失函数,J(w,b)=,这里的2并没有含义,只是为了后面计算更简洁,y'=fw,b(x)=wx+b。其实就是预测值和真实值差值的平均平方误差。我们的任务就是使找到w和b的值使J最小,为了得到w和b我们引入了梯度下降,将在下一节讲到。
在机器学习中,不同的人会针对不同的程序采用不同的损失函数,但平方误差损失函数是迄今为止线性回归最常用的函数。