【ML】pandas 处理数据中的非数字列

生活就像一杯茶

于 2022-12-19 10:50:36 发布

阅读量429

点赞数

分类专栏：机器学习 python 文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/weixin_43002640/article/details/128369879

版权

18 篇文章 0 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

数据集

鸢尾花数据集：https://www.kaggle.com/datasets/himanshunakrani/iris-dataset

import numpy as np 
import pandas as pd 

origin_data = pd.read_csv("/kaggle/input/iris-dataset/iris.csv")
origin_data.head()

输出：

	sepal_length	sepal_width	petal_length	petal_width	species
0	5.1	3.5	1.4	0.2	setosa
1	4.9	3.0	1.4	0.2	setosa
2	4.7	3.2	1.3	0.2	setosa
3	4.6	3.1	1.5	0.2	setosa
4	5.0	3.6	1.4	0.2	setosa

origin_data.loc[:,'species'].value_counts()

输出：

setosa        50
versicolor    50
virginica     50
Name: species, dtype: int64

这里我们知道去重后一共有三种数据，接下来我们将每个类型换为数字。

data = origin_data.replace({'species':{'setosa':1,'versicolor':2,'virginica':3}})

关注

专栏目录