机器学习目录
机器学习简述
一.机器学习的分类
1.有监督学习简述
有监督学习是指通过输入(Y,X)这种一一对应的数据格式,根绝大量的这种数据建立一个数学模型,随后只需要输入X值,就可以得到一个预测的Y值。
常见的有监督学习算法可以分为回归算法和分类算法两种。
分类算法:分类算法应用于预测结果为离散型数据的场景,即所有可能的Y值是离散型,0-1,true-false此类。
回归算法:回归算法应用于预测结果为连续性数据的场景,即预测结果为一个区间内的任意数值,如预测价格 ,温度。
相似度学习是跟回归和分类都有关系的一种监督学习,他的目标是使用相似度函性从样本中学习,这个函数可以度量两个对象中的相似度。
2.无监督学习简述
无监督学习是指输入只有X这种单独的数据格式,我们需要根据X本身隐藏的特征信息,和大量输入的X之间的相关性信息进行处理的一种机器学习过程。
只有输入,根据数据本身属性的差异进行划分,先有结果再有概念,即根据数据之间的tag差异,把相同类型的数据放在一起,然后再赋予这个群体抽象的概念,如聚类。
3.强化学习简述
通过环境交互并获取延迟返回进而改进型为的学习过程
二.模型评估策略
1.模型评估
-
训练集和测试集:将原始数据分为两部分,即训练集和测试集合,将通过训练集训练出来的模型,再用测试集跑一跑,查看误差大小。
-
损失函数:用来衡量模型预测误差的大小,每一个输入x,对应一个y,通过模型f运算之后,输出为f(x),f(x)和y的差异则成为损失函数,记作L(y,f(x)),损失函数越小,模型越优秀。
常见的损失函数: · 0-1损失函数:没有误差为0,有误差为1。 · 平方损失函数:L(y,f(x))