![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Kaggle
文章平均质量分 56
锦堇年
NLP学弱
展开
-
kaggle实战之Titanic(2)-分类器的选择与实现
数据读取和交叉验证:分别使用LR分类,决策树,随机森林 但出现一个问题是在交叉验证中提升的准确率在提交后并无提升,有待考证 datafile = load_data('train.csv') train_target,train_data = data_clean(datafile) #洗牌 r = random.randint(2147483647) ran原创 2016-03-02 09:45:54 · 1191 阅读 · 0 评论 -
kaggle实战之Titanic (1)-预处理
由数据挖掘的知识可知,数据预处理包括: (1) 数据清理:填写缺失值,光滑噪声数据等等。 (2) 数据集成:将多个数据源合成一个数据源。此处只有1个csv文件,过 (3) 数据变换:平滑聚集,数据概化等。 (4) 数据规约: 目的是减小数据量,同时又不影响结果。此处数据共891<1000行,暂不处理PassengerId 旅客ID Survived 是否活下来了,1:yes原创 2016-03-02 08:49:01 · 3178 阅读 · 0 评论