机器学习实际上是从一堆数据中得到一个可以对应的预测的结果。
假设这些数据集为X,对应的预测结果为Y。
机器学习真正要做的工作是寻找一个函数,如何将X更好的映射到Y,即寻找一个f=X->Y
但是往往现实情况下不可能寻找到一个函数使得数据集中的每个x都能得到一个正确的结果y
机器学习能做的只是寻找一个函数g,使它无限接近f,当然越接近越好。这样对于大部分的x都能得到正确的结果y。
这是机器学习要做的工作,当然输入一个数据集之后,往往是无法得到我们期望得到的目标函数g,因为我们没有告诉说哪些特征对结果是重要的或者有影响的。实际上这些特征需要人为地指定,往往形成一个集合称为特征模型。我们需要对一个问题建模,挑选一些有用的特征。然后让机器在数据中利用特征模型对数据进行分析,挑选哪些特征对结果的影响比重大,等等。实际上最终的g是特征模型各个特征的加权函数,机器学习学到的就是这些加权因子的大小。