前言
第一次参加Kaggle的时候,看了很多入门帖,但是还是看不懂不知道到底怎么参加,是在Kaggle上提交代码吗,像互联网公司程序员在线考试一样?还是提交预测的结果?
没有一个像”Hello World”一样简单但是又完整的流程,因此写了这篇文章,大家不用理解代码的含义,只用复制现成的代码,简单的四步过下流程,熟悉下如何参加Kaggle即可
0.运行环境:
Win8
Python3.6.0
需要提前装好的Python库:pandas、numpy、sklearn
1.在比赛页面下载数据
train.csv为训练集,test.csv为测试集
gender_submission.csv为提交的样例,用于告诉你提交的格式
2.分析数据并训练分类器
参考代码:http://blog.csdn.net/guoxinian/article/details/73740746
第7行,需要修改为你自己的文件地址!!
# -*- coding: utf-8 -*-
import pandas as pd #数据分析
import numpy as np #科学计算
from pandas import Series,DataFrame
data_train = pd.read_csv("G:/Machine Learning/Kaggle/GettingStar/Titanic/train.csv")
data_train
from sklearn.ensemble import RandomForestRegressor
### 使用 RandomForestClassifier 填补缺失的年龄属性
def set_missing_ages(df):
# 把已有的数值型特征取出来丢进Random Forest Regressor中
age_df = df[['Age','Fare', 'Parch', 'SibSp', 'P