数据挖掘
文章平均质量分 79
himon980
热情 激情 感情
展开
-
随机森林参数理解与调优
随机森林模型中参数意义,初始值设定,调参方法。原创 2017-08-17 17:02:03 · 24214 阅读 · 3 评论 -
分类问题中不平衡数据分布的解决方案
问题定义:解决方案: 1. 做一次聚类分析。可以考察,其中是否有一些cluster明显的不包含正样本。我们是否可以先做一个粗的分类器,将这一些样本分开,然后再看剩下来的数据是否不均衡的状况会减轻很多。在剩余的数据上再做一个分类器。 2. 从采样的角度处理 over-sampling,对小样本增加副本(复制部分) under-sampling,对大样本选取部分 3. 人工生成样本原创 2017-10-16 14:15:20 · 2628 阅读 · 0 评论