20151007kaggle Titanic心得.md

Titanic是kaggle上一个练手的比赛,kaggle平台提供一部分人的特征,以及是否遇难,目的是预测另一部分人是否遇难。目前抽工作之余,断断续续弄了点,成绩为0.79426。
在这个比赛过程中,接触并了解了一些数据挖掘比赛的基本流程,现记录一下。

1. 分析数据

  1. 因为数据量比较小,train有800多条数据,test有400多条数据,因此这里用了execl的数据透视表分析。
  2. 同时python提供pandas库,可以很好的分析数据。

2. 缺失值填充

关于Age,Fare,Embarked三个字段有缺失,官方给了个利用中位数或者众数的做法,同样的我们也可以利用随机森林等机器学习模型来填补缺失值。当然这里我采用的官方的做法,效果不错。

##利用众数填充Embarked缺失值
prodata.Embarked[ prodata.Embarked.isnull() ] = prodata.Embarked.dropna().mode().values

##利用中位数填充Age缺失值

median_age = prodata['Age'].dropna().median()
prodata.loc[ (prodata.Age.isnull()), 'Age'] = median_age

##根据Pclass将人分成3组,然后利用每组的中位数填充Fare缺失值

median_fare = numpy.zeros(3)
for f in range(0,3):
    median_fare[f] = prodata[prodata.Pclass == f+1 ]['Fare'].dropna().median()
for f in range(0,3):
   prodata.loc[ (prodata.Fare.isnull()) & (prodata.Pclass == f+1 ), 'Fare'] = median_fare[f]

3. 数据处理

3.1 转换为虚拟变量

数据中常常有无法比较大小的值,比如Embarked代表去哪个地方,这个时候如果要使用lr这类的模型,我们需要将Embarked变为虚拟变量,也是哑变量。
举个例子:Embarked这里取得3种值,假设为A、B、C。这里我们就可以用2个新特征标识Embarked,分别是Embarked_A、Embarked_B。

Embarked = “A” => Embarked_A = 1 Embarked_B = 0

Embarked = “B” => Embarked_A = 0 Embarked_B = 1

Embarked = “C” => Embarked_A = 0 Embarked_B = 0

这里不能再添加一个新的特征Embarked_C,原因是如果在添加一个特征会使得特征完全共线性,导致模型无法估计。具体详细见虚拟变量陷阱

##将Embarked转换为哑变量
dummies_df = pandas.get_dummies(prodata.Embarked)
dummies_df = dummies_df.rename(columns=lambda x:'Embarked_'+str(x))
prodata = pandas.concat([prodata,dummies_df.iloc[:,:-1]],axis=1)

3.2 归一化

归一化的方法有很多,比如线性函数归一化,Z-score标准化。后者要求原始数据分布为正态分布。

##标准化归一化Age
prodata['Age_Scaled'] = preprocessing.StandardScaler().fit_transform(prodata.Age)

3.3 离散化(分区间)

将数值类的数据划分成几个区间,这里采用的分位数划分pandas.qcut。

##将Age分成6个区间,然后变化成区间id
Age_bin = pandas.qcut(prodata.Age, 6)
prodata['Age_bin_id'] = pandas.factorize(Age_bin)[0]+1

3.4 数据平滑

因为Fare这一列有一些为0的数据,因此对等于0的部分,稍微做一些平滑处理。

##平滑处理Fare为0的数据
prodata['Fare'][numpy.where(prodata['Fare']==0)[0]] = prodata['Fare'][prodata.Fare.nonzero()[0] ].min() / 100

4. 提炼高级特征

  1. 参照了别人的博客,从Name里面提炼了一些Mr,Mrs等特征,然后转换成哑变量。
  2. 对一些特征进行加减乘除,在下一步降维,以及特征筛选的时候使用。

5. 降维以及特征筛选

5.1 PCA降维

参照博客,对lr使用了PCA降维,但是效果并不好。

X = prodata.values[:, 1::]
y = prodata.values[:, 0]   
variance_pct = .99
pca = PCA(n_components=variance_pct)    
X_transformed = pca.fit_transform(X,y)    
pcaDataFrame = pandas.DataFrame(X_transformed)

5.2 特征筛选

针对如此多的特征,这里可以根据随机森林在训练之后产生的一个特征重要性来筛选特征。

forest = forest.fit( train_data[0::,1::], train_data[0::,0] )
feature_importance = forest.feature_importances_
feature_importance = 100.0 * (feature_importance / feature_importance.max())
fi_threshold = 10
important_idx = numpy.where(feature_importance > fi_threshold)[0]
important_features = prodata[''][important_idx]
print "\n", important_features.shape[0], "Important features(>", \
    fi_threshold, "% of max importance)...\n"#, \
    important_features
sorted_idx = numpy.argsort(feature_importance[important_idx])[::-1]
get the figure about important features
pos = numpy.arange(sorted_idx.shape[0]) + .5
plt.subplot(1, 2, 2)
plt.title('Feature Importance')
plt.barh(pos, feature_importance[important_idx][sorted_idx[::-1]], \
        color='r',align='center')
plt.yticks(pos, important_features[sorted_idx[::-1]])
plt.xlabel('Relative Importance')
plt.draw()     
plt.show()
train_df = train_df.iloc[:, important_idx].iloc[:, sorted_idx].values
test_df = test_df.iloc[:,important_idx

6. 交叉验证

sklearn自带有cross_validation,可以进行交叉验证。具体的cross_validation用法参考:Cross-validation: evaluating estimator performance

cross_validation.cross_val_score(lr,train_data[0::,1::],train_data[0::,0],cv=5,scoring='precision')

7. 参考资料:

  1. 【原】关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化: http://www.cnblogs.com/chaosimple/p/4153167.html
  2. kaggle数据挖掘竞赛初步:
    http://www.cnblogs.com/north-north/p/4353365.html
    http://www.cnblogs.com/north-north/p/4354775.html
    http://www.cnblogs.com/north-north/p/4358084.html
    http://www.cnblogs.com/north-north/p/4360121.html
  3. Kaggle系列——Titanic 80%+精确度纪录:http://blog.csdn.net/yobobobo/article/details/48194021
  4. wiki 哑变量:https://en.m.wikipedia.org/wiki/Dummy_variable_%28statistics%29
  5. PCA:http://sebastianraschka.com/Articles/2014_pca_step_by_step.html
  6. scikit-learn中PCA的使用方法: http://blog.csdn.net/u012162613/article/details/42192293
  7. 干货:结合Scikit-learn介绍几种常用的特征选择方法:http://dataunion.org/14072.html?utm_source=tuicool
  8. Cross-validation: evaluating estimator performance:http://scikit-learn.org/stable/modules/cross_validation.html
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
根据引用的分析,在进行Kaggle Titanic生存预测时,可以将乘客的年龄、性别和船票等级作为重点数据进行分析。乘客的家属数量可能对生存率有影响,但需要与其他信息一起探讨,例如乘客是否是船上所有家属中最年轻的一个。船票编号、价格和客舱号可以视为一类信息,与船票等级可能有关联。而最后一个登船港口对生存率的影响暂时被假设为无关,因为仅凭几百条数据很难确定其影响。 引用和可以看到,登船地点对生存率有一定的影响。在S港口登船的人数最多,C港口次之,Q港口最少。在S港口登船的乘客生存率较低,而在C港口登船的乘客生存率较高。另外,在不同登船港口的女性乘客占比也不同,C港口的女性乘客数量最多,Q港口次之,S港口最少。由于前面已经了解到女性的生存率明显高于男性,因此性别因素可能是导致生存率差异的原因之一。 综上所述,在Kaggle Titanic生存预测中,可以将乘客的年龄、性别、船票等级和登船地点作为重要的特征进行分析。其中,女性的生存率较高,C港口登船的乘客生存率较高,而S港口登船的乘客生存率较低。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [kaggle|泰坦尼克号生存预测](https://blog.csdn.net/weixin_45435206/article/details/104422277)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [【机器学习kaggle赛事】泰坦尼克号生存预测](https://blog.csdn.net/m0_51933492/article/details/126895547)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值