机器学习的目的是为了解决实际问题。我们将实际问题分为三类:分类问题、回归问题、标注问题。
本文尽量以我的通俗语言描述:
1.分类问题
在机器学习算法中,很大一部分问题是分类问题,比如文本分类、图片分类、机械故障分类等等。
分类问题通常有有限个(离散)分类结果,机器学习到的目的就是为了训练分类器。
评价指标:
识别精确率、召回率
算法举例:
包括k 近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow 等
2.回归问题
回归问题的目的是为了得到输入到输出的函数。它与分类问题的最大区别是输出值是连续值。可以这样理解,他是一类建模问题,简单来说在曲线拟合中我们一般会有已知若干个点的坐标,然后近似的建模一条曲线尽量使这些点在曲线附近。这时我们拟合的是单一自变量x的曲线即f(x)是我们要得到的模型。
在更复杂的情况下如果一个点的自变量不只是x了而是x、x1、x2、x3…xn可能有n个自变量这时我们要得到f(x、x1、x2、x3…xn)这条曲线就适用于回归问题。
需要注意的是并非我们仅仅将它用在曲线拟合上,我们自变量不一定是横坐标点的概念。我们将上述的分类问题推广,将n个特征值作为自变量输出不是固定的几个分类而是不连续的值,就得到了回归问题。所以看吧,回归与分类的最大区别就是输出值是连续值。
典型问题是股票预测、辛烷浓度预测等等。
评价指标
平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares)求解
?