Titanic预测

最新推荐文章于 2022-08-18 16:15:38 发布

yu_weier

最新推荐文章于 2022-08-18 16:15:38 发布

阅读量192

点赞数

分类专栏：机器学习 python

本文链接：https://blog.csdn.net/weixin_43307006/article/details/83474091

版权

python 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

机器学习

2 篇文章 0 订阅

订阅专栏

本周学习任务是写 Titanic 预测，以下是我的部分代码，留作以后改善：

对于缺失值的处理：用了scikit-learn中的RandomForest来拟合

def set_ages(df):
    age_df = df[['Age', 'Fare', 'Parch', 'SibSp', 'Pclass']]
    known_age = age_df[age_df.Age.notnull()].as_matrix()
    unknown_age = age_df[age_df.Age.isnull()].as_matrix()
    y = known_age[:, 0]
    x = known_age[:, 1:]
    fr = RandomForestRegressor(random_state=0, n_estimators=2000, n_jobs=-1)
    fr.fit(x, y)
    predicted_ages = fr.predict(unknown_age[:, 1::])

    df.loc[(df.Age.isnull()), 'Age'] = predicted_ages

    return df, fr

def set_Cabin_type(df):
   df.loc[ (df.Cabin.notnull()), 'Cabin' ] = "Yes"
   df.loc[ (df.Cabin.isnull()), 'Cabin' ] = "No"
   return df

类目型的特征因子化

dummies_Cabin = pd.get_dummies(data_train['Cabin'], prefix= 'Cabin')
dummies_Embarked = pd.get_dummies(data_train['Embarked'], prefix= 'Embarked')
dummies_Sex = pd.get_dummies(data_train['Sex'], prefix= 'Sex')
dummies_Pclass = pd.get_dummies(data_train['Pclass'], prefix= 'Pclass')
df = pd.concat([data_train, dummies_Cabin, dummies_Embarked, dummies_Sex, dummies_Pclass], axis=1)
df.drop(['Pclass', 'Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'], axis=1, inplace=True)
``
* 数值处理--scaling
```python
import sklearn.preprocessing as preprocessing
scaler = preprocessing.StandardScaler()
age_scale_param = scaler.fit(df['Age'])
df['Age_scaled'] = scaler.fit_transform(df['Age'], age_scale_param)
fare_scale_param = scaler.fit(df['Fare'])
df['Fare_scaled'] = scaler.fit_transform(df['Fare'], fare_scale_param)