2014年06月_范涛

09月 08月 07月 06月

原创不平衡学习方法理论和实战总结

不平衡学习方法一: 采样方法1. 随机重采样(random oversampling): 样本不平衡时候，对小类样本就行随机重采样，以达到平衡。这种方法只是对小类样本进行简单的拷贝，缺点是容易over-fit，比如在决策树分类的时候，很有可能一个终端叶子节点的样本都是一个样本的拷贝而已，扩展性不足，这可能会提高模型训练的精度，但是对未知测试样本的预测可能是很差的。 2.

2014-06-29 13:28:05 4686

原创连续特征离散化和归一化

连续特征进行离散化处理。

2014-06-25 22:12:33 85515 7

原创二分类问题特征选择的常用两个方法

二分类问题特征选择的常用两个方法 2014-6-25 （1）互信息。值越大，相关性越强 w是特征，t是目标。反应的是特征出现和不出现对目标值的影响。（2）卡方检验其中 A = N(w = 1, t = 1)、 B = N(w = 1, t = 0)、 C = N(w = 0, t = 1)、 D = N(w =0,

2014-06-25 22:04:13 8973

原创 Loan default predictor（贷款违约预测）

Loan default predictor （贷款违约预测）--- dylan at 2014-3-16 一：背景Kaggle发布了一个涉及贷款违约预测的比赛，时间周期2个月（2014/01/17 -- 2014/03/14）。其实，之前kaggle很久之前有过关于贷款相关信用预测的比赛。但是，这次和上次的情况很不同，挑战也更大。传统的金融相关的算法，其实是个典型二分类问

2014-06-25 21:36:27 8288 1

原创模型集成方法： Stacked generation

Stacked generation分为两个阶段 1. Level-0 generalizersLevel-0 generalizers阶段生成Level-1 generalizers阶段的输入数据。我们有K个简单的分类模型，然后如何ensemble这些模型的结果，等价于这些模型的权重是多少？一种就是根据把训练集分割一定比率来训练这K个简单模型，用这个K的模型预测剩下部分的训练集

2014-06-22 23:24:03 3593

原创从今天开始，把之前做的项目整理发到博客上

从今天开始，把之前做的项目整理发到博客上

2014-06-22 15:26:01 1238

原创 kaggle ： StumbleUpon Evergreen Classification Challenge

StumbleUpon Evergreen Classification Challenge------2013/08/16 -- 2013/10/31一背景Build a classifier to categorize webpages as evergreen or non-evergreen Stumbleupon是美国的UGC网站，用户分享内容，网站通过用户行为数据

2014-06-22 15:19:31 3420 1

原创 FaceBook: Text Tag Recommendation

Text Tag Recommendation 一：背景Kaggle上 facebook招聘比赛III。任务要求是给定文本中抽取关键词，这里称作tag吧。训练集是Stack Exchange sites上面的大量问答文本，每个post上面有网页的title ,body, 用户打的tags。

2014-06-22 15:03:11 2110 3

fcntl函数的功能介绍

函数可以改变已打开的文件的性质。 #include <fcntl.h> int fcntl(int fields, int cmd, .../* int arg */); //若成功则依赖于cmd,若出错则返回-1

2009-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人