Task01 吃瓜—绪论

最新推荐文章于 2024-07-24 14:05:30 发布

GeekmanX

最新推荐文章于 2024-07-24 14:05:30 发布

阅读量100

点赞数

分类专栏：西瓜书文章标签：机器学习

本文链接：https://blog.csdn.net/maozixiang/article/details/118713278

版权

2 篇文章 0 订阅

订阅专栏

所有学习算法的期望性能相同（只是处理不同的问题时，学习算法A优于学习算法B）

过拟合：学习样本集非一般特征，泛化性能下降

解决方法：

欠拟合：没有学到样本集一般特征

解决方法：

留出法（hold-out）

将数据集分为互斥的两个集合，作为训练集和验证集，比例一般在0.66-0.8左右

交叉验证法（cross validation）

将数据集分为k个大小相似的互斥子集，每次保留一个集合作为验证集，其余集合作为训练集，进行k次训练和测试，返回测试结果的均值，也称k折交叉验证

自助法（bootstrapping）

可放回抽样，对包含m个样本的数据集D，每次抽取一个，拷贝入D’，重复执行m次。某些数据可能被抽取多次，某些一次都没有抽到。某一样本始终不被抽到的概率约等于0.368，把这个部分抽出来作为验证集

适用范围：数据集较小，难于有效划分训练\验证集时使用

错误率（error rate）：分类错误率为分类错误的数占样本总数的比例

精度（accuracy）：精度 = 1 - 错误率

查准率（precision）：真阳性/（真阳性+假阳性）所有预测正例中的真实正例

查全率（recall）：真阳性/（真阳性+假阴性）所有真实正例中判断正确的例

P-R曲线和平衡点（Break Even Point）：

F1：

ROC曲线（Receiver Operating Characteristic）：

AUC（Area Under ROC Curve）:

代价矩阵：当FN,FP的结果重要性不一样时，可以设定代价矩阵对其加权，比如二分代价矩阵可以为[[0,1],[5,0]]

代价曲线：取（0，FPR）,（1,FNR）两点连线，将ROC上每个点转换成代价平面的一条线,所有线取下界得到期望总体代价

关注

专栏目录