数据集
鸢尾花数据集:https://www.kaggle.com/datasets/himanshunakrani/iris-dataset
数据处理
查看数据的前几行
import numpy as np
import pandas as pd
origin_data = pd.read_csv("/kaggle/input/iris-dataset/iris.csv")
origin_data.head()
输出:
sepal_length | sepal_width | petal_length | petal_width | species | |
---|---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 | setosa |
1 | 4.9 | 3.0 | 1.4 | 0.2 | setosa |
2 | 4.7 | 3.2 | 1.3 | 0.2 | setosa |
3 | 4.6 | 3.1 | 1.5 | 0.2 | setosa |
4 | 5.0 | 3.6 | 1.4 | 0.2 | setosa |
查看非数字列的数据分布
origin_data.loc[:,'species'].value_counts()
输出:
setosa 50
versicolor 50
virginica 50
Name: species, dtype: int64
这里我们知道去重后一共有三种数据,接下来我们将每个类型换为数字。
替换非数字列为数字列
data = origin_data.replace({'species':{'setosa':1,'versicolor':2,'virginica':3}})