机器学习之特征工程

最新推荐文章于 2021-10-11 11:09:27 发布

Ouyangjianxiu

最新推荐文章于 2021-10-11 11:09:27 发布

阅读量450

点赞数

分类专栏：数据分析 kaggle

本文链接：https://blog.csdn.net/Ouyangjianxiu/article/details/78621735

版权

前言

之前照着kaggle上的几个大神的帖子对“泰坦尼克存活率”的例子进行了学习和模仿，发现特征工程真的很重要，特征工程有一定的套路，这里的套路我更想理解为是一些必备的处理数据的步骤。当我们手上拿到了一组数据的时候，为了“让数据说话”（当然数据不会说话，我们做特征工程就是为了让数据说话），使用这些常规套路，能够让我们更快地去了解这些陌生的数据，进而加上我们对这批数据的理解，发散思维，去完成对数据的处理。

废话不多说，下面直接进入正题

step1：将后续所需要的包导入，包括：pandas，numpy，matplotlib，sklearn等

import pandas as pd   
import numpy as np
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor
from sklearn import cross_validation

step2：导入数据，没有数据你去捣鼓谁去。这里数据分为两个，训练集和测试集，具体怎么下载可以直接上kaggle官网下或者自行百度下载。

这里可以使用read_csv或者read_table来读取数据，针对你存储数据文件的类型选取合适的方法。

data_train = pd.read_csv("train.csv")
data_test = pd.read_csv("test.csv")

step3:查看数据的信息，包括数据的每列的数量（查看是否有缺失值），查看每列数据的表达形式，是数字还是字符串。

step4：针对不同的数据类型，我们有不

最低0.47元/天解锁文章

Ouyangjianxiu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习之特征工程

前言之前照着kaggle上的几个大神的帖子对“泰坦尼克存活率”的例子进行了学习和模仿，发现特征工程真的很重要，特征工程有一定的套路，这里的套路我更想理解为是一些必备的处理数据的步骤。当我们手上拿到了一组数据的时候，为了“让数据说话”（当然数据不会说话，我们做特征工程就是为了让数据说话），使用这些常规套路，能够让我们更快地去了解这些陌生的数据，进而加上我们对这批数据的理解，发散思维，去完成
复制链接

扫一扫

专栏目录