数据挖掘
文章平均质量分 66
跳出温水的蛙
这个作者很懒,什么都没留下…
展开
-
数据挖掘初学Day03
1.幸存者偏差2.数据预处理part A途径:(1)填写缺失值(2)光滑噪声数据(3)删除离群点(4)解决属性不一致具体:(1)处理缺失值 ignore;数据补齐;不处理 (2)离群点 (outlier):是一个数据对象,它显著不同于其他数据对象。如信用卡欺诈 离群点类型:全局离群点给定数据集中,如...原创 2021-06-23 21:25:53 · 71 阅读 · 0 评论 -
数据挖掘初学Day01学习资源汇总
网站视频链接https://www.bilibili.com/video/av23933161/?p=5推荐书籍推荐订阅的杂志期刊多关注“大牛”动态,防止闭门造车推荐的学习工具原创 2019-01-02 15:42:29 · 136 阅读 · 0 评论 -
数据挖掘初学Day02
1.将数据集分为 测试集和训练集。训练集用来产生模型,测试集用来检验模型。2.混淆矩阵 Confusion Matrix一共四种情况。红色是预测对的,紫色是预测错误的。3.ROC曲线阈值太大或者太小都不好,比如常见的阈值就是0.5,大于0.5的认为是正样本,小于0.5的认为是负样本。如果增大这个阈值,预测错误(针对正样本而言,即指预测是正样本但是预测错误,下同)的概率...原创 2019-01-02 16:47:45 · 161 阅读 · 0 评论