Titanic

最新推荐文章于 2024-03-26 18:59:30 发布

猫司令XD

最新推荐文章于 2024-03-26 18:59:30 发布

阅读量243

点赞数 1

分类专栏：数挖竞赛博客

本文链接：https://blog.csdn.net/lmyouxiu/article/details/118962140

版权

数挖竞赛博客专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Titanic

写在前面

这个是身为菜鸟的我的第一场 Kaggle 竞赛，博客内容也大体是搜集代码，熟悉流程，成功提交后总结可用经验

1. Kaggle 官网教程

解读并展示三个数据，最后一个gender_submission.csv 完全按照性别预测，也提示了提交格式（两列，序号，是否存活）
网页提供在线编辑代码平台

决策树

from sklearn.ensemble import RandomForestClassifier

y = train_data["Survived"]

features = ["Pclass", "Sex", "SibSp", "Parch"]
X = pd.get_dummies(train_data[features])
X_test = pd.get_dummies(test_data[features])

model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)
predictions = model.predict(X_test)

output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions})
output.to_csv('my_submission.csv', index=False)
print("Your submission was successfully saved!")

提供机器学习课程https://www.kaggle.com/learn/intro-to-machine-learning

2. Kaggle 机器学习课程

How models work
- define a model
- fit a model
- make predictions
- evaluate our model
Basic data exploration
- data.describle() 对数值型数据进行统计
- data.head()
- data.info() 大概知道数据缺失情况
Your first machine learning model
- 选择一部分特征用于训练模型
  - m_features=[‘a’,‘b’,‘c’]
  - x=m_data[m_features]
- 决策树
  - my_model=DecisionTreeRegressor(random_state=1)
  - "random_state=某个数"可以确保每一次运行时得到相同的结果
Model validation
- MAE(mean absolute error) 平均绝对误差——误差绝对值取平均
  - mean_absolute_error(y,predict_y)
- validation data 不能用训练模型的数据来检测模型的质量，要额外预留出一部分数据
- train_test_split
  - ```
  train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0)
```
Underfitting and Overfitting
- 欠拟合（树过浅）：一个模型无法捕捉数据内重要的特征和模式，导致它在训练数据中表现仍然很糟
- 过拟合（树过深）：模型对于训练数据的预测效果非常好，但是在新数据上的效果是不可靠的
- max_leaf_nodes参数能够很好的控制树的深度
- data=data.dropna(axis=0) 丢弃含有缺失值的行
Random forests
- 随机森林使用了许多树，它通过平均每个分量树的预测来进行预测。
- 默认参数也可以效果很好
- mymodel=RandomForestRegressor(random_state=1)

3. csdn博客——逻辑回归

来源 http://blog.csdn.net/han_xiaoyang/article/details/49797143

应用机器学习，千万不要一上来就试图做到完美，先撸一个baseline的model出来，再进行后续的分析步骤，一步步提高，所谓后续步骤可能包括『分析model现在的状态(欠/过拟合)，分析我们使用的feature的作用大小，进行feature selection，以及我们模型下的bad case和产生的原因』等等

数据认识、对特殊点和离群点的处理、特征工程、模型融合

data.info() data.describe()
matplotlib.pyplot 画图展示以各属性为标准乘客分布（柱状图、折线图）
统计各属性与获救结果的关联
将Cabin有无数据处理成Yes、No两种类型
缺失值的处理方式
- 样本多，直接舍弃
- 样本适中，且该属性为非连续值特征属性，就把NaN作为一个新类别
- 样本适中，且该属性为连续值特征属性，设置step然后离散化
- 缺失值的个数不多也可以拟合补全
用随机森林拟合缺失的年龄数据
由于逻辑回归输入的特征均为数值型特征，因此需将类目型的特征因子化。因子化：将非数值型特征平展成多个属性，如Cabin_yes,Cabin_no两个属性，在每个属性下取值0、1
- pd.get_dummies(data,prefix=前缀）按照data的值添加虚拟变量
- pd.concat() 数据的拼接
- pd.drop([’’,’’],axis=1,inplace=true) #true表示原数组内容直接被修改
使用逻辑回归与梯度下降，注意将数值归一化
- scaler=preprocessing.StandardScaler()
交叉验证可以帮助我们检验点子是否合理，bad case直接拿出来人眼审阅，也许可以印证一些猜测，那就将这些优化的想法优先级放高一点
改善过拟合
- 特征选择，选出特征的子集训练
- 提供更多的数据
改善欠拟合
- 需要更多的特征
- 需要更复杂的模型
learning_curve分辨模型欠拟合还是过拟合
- 过拟合：训练集上得分高，交叉验证集上得分低，中间的gap较大
模型融合
- 较好缓解训练过程中的过拟合问题，对结果的准确度提升有帮助
- bagging——不要用全部的训练集训练模型，而是取训练集的一个subset作训练。这样我们虽然用的是同一个机器学习算法，但是得到的模型不同，即使过拟合也是在子训练集上过拟合

4. Kaggle代码——随机森林

来源 https://www.kaggle.com/funxexcel/titanic-solution-random-forest

原始数据处理（train、test合并一起处理）
- age、fare中值填充缺失值
- embarked 众数填充类别缺失值
- age 连续型属性按照区间划分分类
- name 用头衔替代，明确身份（如Mr. /Dr./Officer.
- Carbin只取字符串第一个字符
- 构造Family_Size 和 IsAlone 属性
训练随机森林模型（参数）
尝试——相同数据处理方法，使用随机森林分类器默认参数，得分0.7655