- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 不平衡学习方法理论和实战总结
不平衡学习方法一: 采样方法1. 随机重采样(random oversampling): 样本不平衡时候,对小类样本就行随机重采样,以达到平衡。这种方法只是对小类样本进行简单的拷贝,缺点是容易over-fit,比如在决策树分类的时候,很有可能一个终端叶子节点的样本都是一个样本的拷贝而已,扩展性不足,这可能会提高模型训练的精度,但是对未知测试样本的预测可能是很差的。 2.
2014-06-29 13:28:05 4686
原创 二分类问题特征选择的常用两个方法
二分类问题特征选择的常用两个方法 2014-6-25 (1)互信息。值越大,相关性越强 w是特征,t是目标。反应的是特征出现和不出现对目标值的影响。 (2) 卡方检验 其中 A = N(w = 1, t = 1)、 B = N(w = 1, t = 0)、 C = N(w = 0, t = 1)、 D = N(w =0,
2014-06-25 22:04:13 8973
原创 Loan default predictor(贷款违约预测)
Loan default predictor (贷款违约预测)--- dylan at 2014-3-16 一:背景Kaggle发布了一个涉及贷款违约预测的比赛,时间周期2个月(2014/01/17 -- 2014/03/14)。 其实,之前kaggle很久之前有过关于贷款相关信用预测的比赛。但是,这次和上次的情况很不同,挑战也更大。传统的金融相关的算法,其实是个典型二分类问
2014-06-25 21:36:27 8288 1
原创 模型集成方法: Stacked generation
Stacked generation分为两个阶段 1. Level-0 generalizersLevel-0 generalizers阶段生成Level-1 generalizers阶段的输入数据。我们有K个简单的分类模型,然后如何ensemble这些模型的结果,等价于这些模型的权重是多少? 一种就是根据把训练集分割一定比率来训练这K个简单模型,用这个K的模型预测剩下部分的训练集
2014-06-22 23:24:03 3593
原创 kaggle : StumbleUpon Evergreen Classification Challenge
StumbleUpon Evergreen Classification Challenge------2013/08/16 -- 2013/10/31一 背景Build a classifier to categorize webpages as evergreen or non-evergreen Stumbleupon是美国的UGC网站,用户分享内容,网站通过用户行为数据
2014-06-22 15:19:31 3420 1
原创 FaceBook: Text Tag Recommendation
Text Tag Recommendation 一: 背景Kaggle上 facebook招聘比赛III。任务要求是给定文本中抽取关键词,这里称作tag吧。训练集是Stack Exchange sites上面的大量问答文本,每个post上面有网页的title ,body, 用户打的tags。
2014-06-22 15:03:11 2110 3
fcntl函数的功能介绍
2009-07-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人