学习《机器学习100天》第一天数据预处理

最新推荐文章于 2022-05-04 11:56:52 发布

a776995799

最新推荐文章于 2022-05-04 11:56:52 发布

阅读量235

点赞数

分类专栏：机器学习学习-机器学习100天

本文链接：https://blog.csdn.net/a776995799/article/details/86030320

版权

学习-机器学习100天同时被 2 个专栏收录

33 篇文章 0 订阅

订阅专栏

机器学习

16 篇文章 0 订阅

订阅专栏

github上的项目，跟着一起学习

数据预处理 | 第1天

用来练习的数据是这样的：

Country	Age	Salary	Purchased
France	44	72000	No
Spain	27	48000	Yes
Germany	30	54000	No
Spain	38	61000	No
Germany	40		Yes
France	35	58000	Yes
Spain		52000	No
France	48	79000	Yes
Germany	50	83000	No
France	37	67000	Yes

jupyder notebook读取
array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, nan],
       ['France', 35.0, 58000.0],
       ['Spain', nan, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

操作共6步：

1.导入库

numpy

pandas

2.导入数据集

pd.read_csv()

3.处理丢失数据

sklearn.preprocessing的Imputer 缺失值用平均值填充 fit， transform

4.解析分类数据

sklearn.preprocessing的LabelEncoder OneHotEncoder 编码fit_transform

5.拆分数据集为训练集和测试集

sklearn.model_selection的train_test_split