目录
第一部分:数据集
一.常用概念
每行叫做样本或实例,每列(除最后一列)叫做特征或属性,最后一列为标签列,表示样本所属类别;
属性(特征)空间----由特征张成空间的维度;
特征或属性向量----组成特征或属性空间中的样本点(行);
特征或属性值----组成特征向量中的值;
泛化误差----学习器在新的样本上的误差。
如果数据非数字,需要通过labelen-coder标签编码或onehot-encoder编码(只有一位为1)转换为数据型变量。
二.对二分类问题进行评价
绝对值误差函数;平方误差函数;训练误差;测试误差;泛化误差;矩阵。
矩阵:
1)准确率Accuracy=(TP+TN)/all
2)精确率Precision=TP/(TP+FP)
3)召回率=真正率TPR(True Positive Rate)=TP/(TP+FN)
4)假正率FPR(False Positive Rate)=FP/(FP+TN)
5)F1-score(精确率和召回率的调