机器学习(Machine Learning)
一、定义
机器学习:为了解决任务T,设计一段程序,从经验E中学习,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能得到提升。
二、分类
(一)有监督学习 (训练样本中包含对应的标签)
1、分类问题(样本标签属于离散变量)
(1)生成式模型
联合概率分布:假设有随机变量X,Y,此时P(X=a and Y=b)用于表示X=a且Y=b的概率
(2)判别式模型
条件概率:事件A在事件B条件下发生的概率,表示为P(A|B)
条件概率公式:
贝叶斯公式:
2、回归问题(样本标签属于连续变量)
(二)无监督学习(样本中不包含任何标签)
1、聚类
2、降维
(三)强化学习
1、有模型学习
2、免模型学习
三、机器学习基本流程
1、特征表示
2、选择模型
3、训练模型
4、模型评估
四、机器学习方法的三要素
1、模型:要学习的概率分布或决策树。所有可能的条件概率分布或者决策树构成的集合就是模型的假设空间(Hypothesis space)。
2、策略 :从假设空间中学习最有模型的方法称为策略。
损失函数(loss function):是衡量模型好坏的指标之一。【0-1损失函数】【平方损失函数】【绝对损失函数】【对数损失函数】
3、算法:是指学习模型是的具体计算方法,求解最有模型归结为一个最优化问题,统计学习的算法等价于求最优化问题的算法,也就是求解析解或者数值解。
五、机器学习算法原理
(一)线性回归(Linear Regression)
1、单变量线性回归: