鸢尾花数据集基本用法

最新推荐文章于 2024-08-01 23:02:04 发布

苏格拉没底——

最新推荐文章于 2024-08-01 23:02:04 发布

阅读量7.9k

点赞数 5

分类专栏：机器学习/深度学习

本文链接：https://blog.csdn.net/qq_924485343/article/details/109751909

版权

26 篇文章 2 订阅

订阅专栏

Iris鸢尾花数据集是一个经典的数据集。

包含3类共150条记录，每类各50项数据，每一条记录都有四个体征。

可以通过这四个特征来预测鸢尾花属于哪一个品种。

首先导入数据集，用pandas读入iris.csv数据集，读取后的数据集类型是dataframe

import pandas as pd

iris = pd.read_csv("./data/iris.csv")

输出数据集的描述性信息

iris.info()

类型，下标范围，列数，各列的一些信息，列中数据的类型

iris.head()

iris数据集中的各个列的描述性信息

iris.describe()

计数，均值，标准差，最小值，1/4,1/2,3/4 分位数，最大值

pd.read_csv(filepath,header=0,names=None,sep=','，index_col,usecols)

1.filepath 可以是绝对路径/相对路径也可以使 url

如下面这个 http网址可以直接得到一个csv类型的文件，那么通过下面的这种读法就可以读取到这个网络上的文件

tmp = pd.read_csv("http://datasets.flowingdata.com/hot-dog-contest-winners.csv")

sep，delimiter 都是设置分隔符的，csv文件默认的分隔符为逗号。

2.header 用于设置表头，默认为 0 即表中的第一行

iris1 = pd.read_csv("./data/iris.csv",sep=',',header=1)

3.names=[] 如果读取的数据集没有表头，就可以自己设置表头

iris1 = pd.read_csv("./data/iris.csv",sep=',',names=["one","two","three","four","five"])

注意这样读取的话，如果本身存在表头，那么本身存在的表头就被当成了第一行数据

4.如果pd.read_csv() 时不进行 header，names的设置，那么一切按照默认，即读取时默认将数据集的第一行当做header表头。

只设置header=k，就将第k行当做表头开始读取数据，[0,k-1]行就没了

只设置names的取值，适用于没有表头的情况下，如果有表头那么表头会被当做第一行数据

同时设置names=[] ，header=0,适合原来有表头但现在需要对表头进行替换的情况

iris1 = pd.read_csv("./data/iris.csv",sep=',',names=["one","two","three","four","five"],header=0 )
iris1.head()

5.dataframe的下标默认是从 0 1 2 3 4 开始顺序推的

如果想要将某一列作为下标加 index_col 参数

6.如果我们只是需要数据集中的部分的列，可以只提取想要的部分

iris1 = pd.read_csv("./data/iris.csv",sep=',',usecols=["sepal_width_cm","petal_length_cm"])
iris1.head()

7.sep delimiter 分隔符的设置对读取的影响

8. python 打开文件 open()

默认情况下用的 utf-8 编码模式

关注

专栏目录