Machine Learning
Kehl
这个作者很懒,什么都没留下…
展开
-
怎样检测和应对数据集的Outliers
怎样检测和应对数据集的Outliers什么是OutlierOutlier中文可以叫做异常样本,但是一般还是直接称呼Outlier,它就是大量观测样本中那些量较少的、偏离整体的模式样本,这些样本很容易就能够让你得到偏差很大的模型,导致欠拟合,所以需要格外关注它们。 举个例子,我们在做消费者画像时,需要统计消费者的平均收入,大家的平均年薪可能只有20w,但是这时样本中冒出来了马云和王健林,它们的收入远翻译 2015-12-30 11:50:58 · 11504 阅读 · 0 评论 -
逻辑回归,决策树,支持向量机 选择方案
逻辑回归 vs 决策树 vs 支持向量机分类是我们在工业界经常遇到的场景,本文探讨了3种常用的分类器,逻辑回归LR,决策树DT和支持向量机SVM。 这三个算法都被广泛应用于分类(当然LR,DT和SVR也可以用于回归,但是本文先不讨论)。我经常看到人们会问,这个问题我该使用LR呢还是决策树(或者GBDT)还是SVM呢。然后你会听到一个“经典”而且“绝对正确”的答案:”It depends.”这个答案翻译 2015-12-01 15:23:51 · 12676 阅读 · 1 评论 -
交叉熵、相对熵、KL散度、JS散度
以前没有从另一个角度理解过熵:用最小的bit位数描述一个分布,这个bit数就是熵交叉熵就是用分布Q(x)拟合真实分布P(x),最常见的就是LR的Loss相对熵就是交叉熵减去真实分布的熵KL散度就是相对熵,但是KL散度不具有对称性JS散度是 JSD(P||Q)=1/2*KL(P||(P+Q)/2) +1/2*KL(Q||(P+Q)/2)可见JS散度是具有对称性的...原创 2019-03-25 11:49:16 · 939 阅读 · 0 评论