鸢尾花数据集基本用法

Iris鸢尾花数据集是一个经典的数据集。

包含3类共150条记录,每类各50项数据,每一条记录都有四个体征。

可以通过这四个特征来预测鸢尾花属于哪一个品种。

一.鸢尾花数据集

首先导入数据集,用pandas读入iris.csv数据集,读取后的数据集类型是dataframe

import pandas as pd

iris = pd.read_csv("./data/iris.csv")

输出数据集的描述性信息

iris.info()

类型,下标范围,列数,各列的一些信息,列中数据的类型 

iris.head()

iris数据集中的各个列的描述性信息

iris.describe()

计数,均值,标准差,最小值,1/4,1/2,3/4 分位数,最大值

 

二.pd.read_csv()

pd.read_csv(filepath,header=0,names=None,sep=',',index_col,usecols)

1.filepath 可以是 绝对路径/相对路径 也可以使 url

如下面这个 http网址可以直接得到一个csv类型的文件,那么通过下面的这种读法就可以读取到这个网络上的文件

tmp = pd.read_csv("http://datasets.flowingdata.com/hot-dog-contest-winners.csv")

 sep,delimiter 都是设置分隔符的,csv文件默认的分隔符为 逗号 。

2.header 用于设置 表头 ,默认为 0 即 表中的第一行

iris1 = pd.read_csv("./data/iris.csv",sep=',',header=1)

3.names=[] 如果读取的数据集没有表头,就可以自己设置表头

iris1 = pd.read_csv("./data/iris.csv",sep=',',names=["one","two","three","four","five"])

 注意这样读取的话,如果本身存在表头,那么本身存在的表头就被当成了第一行数据

4.如果pd.read_csv() 时不进行 header,names的设置,那么一切按照默认,即读取时默认将数据集的第一行当做header表头。

只设置header=k,就将第k行当做表头开始读取数据,[0,k-1]行就没了

只设置names的取值,适用于没有表头的情况下,如果有表头那么表头会被当做第一行数据

同时设置names=[] ,header=0,适合原来有表头但现在需要对表头进行替换的情况

iris1 = pd.read_csv("./data/iris.csv",sep=',',names=["one","two","three","four","five"],header=0 )
iris1.head()

 

5.dataframe的下标默认是从 0 1 2 3 4 开始 顺序推的

如果想要将某一列作为下标 加  index_col 参数

6.如果我们只是需要数据集中的部分的列,可以只提取想要的部分

iris1 = pd.read_csv("./data/iris.csv",sep=',',usecols=["sepal_width_cm","petal_length_cm"])
iris1.head()

7.sep delimiter 分隔符的设置对 读取的影响

 8. python 打开文件 open()

默认情况下用的 utf-8 编码模式

  • 5
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值