目标
- 了解无监督学习与有监督学习
- 掌握KNN、ID3
- 掌握Apriori、K-Means算法
- 了解集成学习等其它算法
常见算法分类
算法:解决问题的有限步骤
- 有监督算法:每个数据都有对应的标签
- 无监督算法:每个数据都没有明确的对应标签
- 半监督算法:一部分数据有对应的标签,另一部分则没有
有监督学习算法
分类算法: 通过训练集的学习得到目标函数f,把每个属性集X映射到目标属性y(类),且 y 必须是离散 的(若y连续,属于回归算法,而非分类算法)。通过对已知类别训练集的分析,从中发现分类规则,一次预测新数据类别。
分类算法按原理分类:
-基于统计的:如贝叶斯分类
-基于规则的:如决策树分类
-基于神经网络的:神经网络算法
-基于距离的:KNN
常用的分类结果评估标注
- 精确率:预测结果与实际结果的比例
- 召回率:预测结果中某类结果的正确覆盖率
- F1值:统计量,综合评估分类模型,取值0-1之间(越大越好)
分类算法举例:(判断是否买PC)
回归:比如根据已有数据,预测其他人的身高和体重之间的关系。
(预测目标y在回归中是连续值)
KNN
常见距离计算公式:
- 欧式距离
d i j = ( x i − x j ) 2 + ( y i − y j ) 2 d~ij~=\sqrt{(x_i-x_j)^2 + (y_i-y_j)^2 } d ij =(xi−xj)2+(yi−yj)