Iris鸢尾花数据集是一个经典的数据集。
包含3类共150条记录,每类各50项数据,每一条记录都有四个体征。
可以通过这四个特征来预测鸢尾花属于哪一个品种。
一.鸢尾花数据集
首先导入数据集,用pandas读入iris.csv数据集,读取后的数据集类型是dataframe
import pandas as pd
iris = pd.read_csv("./data/iris.csv")
输出数据集的描述性信息
iris.info()
类型,下标范围,列数,各列的一些信息,列中数据的类型
iris.head()
iris数据集中的各个列的描述性信息
iris.describe()
计数,均值,标准差,最小值,1/4,1/2,3/4 分位数,最大值
二.pd.read_csv()
pd.read_csv(filepath,header=0,names=None,sep=',',index_col,usecols)
1.filepath 可以是 绝对路径/相对路径 也可以使 url
如下面这个 http网址可以直接得到一个csv类型的文件,那么通过下面的这种读法就可以读取到这个网络上的文件
tmp = pd.read_csv("http://datasets.flowingdata.com/hot-dog-contest-winners.csv")
sep,delimiter 都是设置分隔符的,csv文件默认的分隔符为 逗号 。
2.header 用于设置 表头 ,默认为 0 即 表中的第一行
iris1 = pd.read_csv("./data/iris.csv",sep=',',header=1)
3.names=[] 如果读取的数据集没有表头,就可以自己设置表头
iris1 = pd.read_csv("./data/iris.csv",sep=',',names=["one","two","three","four","five"])
注意这样读取的话,如果本身存在表头,那么本身存在的表头就被当成了第一行数据
4.如果pd.read_csv() 时不进行 header,names的设置,那么一切按照默认,即读取时默认将数据集的第一行当做header表头。
只设置header=k,就将第k行当做表头开始读取数据,[0,k-1]行就没了
只设置names的取值,适用于没有表头的情况下,如果有表头那么表头会被当做第一行数据
同时设置names=[] ,header=0,适合原来有表头但现在需要对表头进行替换的情况
iris1 = pd.read_csv("./data/iris.csv",sep=',',names=["one","two","three","four","five"],header=0 )
iris1.head()
5.dataframe的下标默认是从 0 1 2 3 4 开始 顺序推的
如果想要将某一列作为下标 加 index_col 参数
6.如果我们只是需要数据集中的部分的列,可以只提取想要的部分
iris1 = pd.read_csv("./data/iris.csv",sep=',',usecols=["sepal_width_cm","petal_length_cm"])
iris1.head()
7.sep delimiter 分隔符的设置对 读取的影响
8. python 打开文件 open()
默认情况下用的 utf-8 编码模式