- 博客(3)
- 收藏
- 关注
原创 机器学习模型评估与调优总结
一、评估指标 1、分类评估指标 混淆矩阵 真实类别\预测类别 正例 负例 正例 TP FN 负例 FP TN 准确率:分类正确的样本占总样本的比例,当样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。 精确率(查准率、Precision)与召回率(查全率、Recall):精确率表示的是分类正确的正样本个数占分类器判断为正样本总数的比例,召回率表示的是分...
2018-10-18 19:17:24 1136
原创 最简单最详细最全的SVM总结
一、SVM要解决的问题 支持向量机的目标是找出能够最大化训练集数据间隔(margin)的最优分类超平面。 SVM的全称是Support Vector Machine,即支持向量机,主要用于解决模式识别领域中的数据分类问题,属于有监督学习算法的一种。 通过观察上图,我们能够发现分类这些数据是可能的。例如,我们可以描绘一条直线然后所有代表男人的点都在直线的上边,代表女人的点都在直线的下边。 这条直线被...
2018-10-18 19:14:54 4394
原创 机器学习特征工程总结
一、前言 数据清洗: 不可信的样本去除 缺失值极多的字段考虑去除 补齐缺失值 数据采样:很多情况下,正负样本是不均衡的,大多数模型对正负样本是敏感的(比如LR) 正样本>>负样本,且量都挺大:下采样 正样本>>负样本,量不大: 采集更多的数据 oversampling 修改损失函数 二、特征处理 sklearn中preprocessing模块经常用来进行特征处理...
2018-10-18 18:50:30 402
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人