袁德望
pandas
可以读取的文件格式有很多,这里主要介绍读取 csv, excel, txt
文件。
df_csv = pd.read_csv('data/my_csv.csv') In [5]: df_csv Out[5]: col1 col2 col3 col4 col5 0 2 a 1.4 apple 2020/1/1 1 3 b 3.4 banana 2020/1/2 2 6 c 2.5 orange 2020/1/5 3 5 d 3.2 lemon 2020/1/7 In [6]: df_txt = pd.read_table('data/my_table.txt') In [7]: df_txt Out[7]: col1 col2 col3 col4 0 2 a 1.4 apple 2020/1/1 1 3 b 3.4 banana 2020/1/2 2 6 c 2.5 orange 2020/1/5 3 5 d 3.2 lemon 2020/1/7 In [8]: df_excel = pd.read_excel('data/my_excel.xlsx') In [9]: df_excel Out[9]: col1 col2 col3 col4 col5 0 2 a 1.4 apple 2020/1/1 1 3 b 3.4 banana 2020/1/2 2 6 c 2.5 orange 2020/1/5 3 5 d 3.2 lemon 2020/1/7
这里有一些常用的公共参数, header=None
表示第一行不作为列名, index_col
表示把某一列或几列作为索引,索引的内容将会在第三章进行详述, usecols
表示读取列的集合,默认读取所有的列, parse_dates
表示需要转化为时间的列, nrows
表示读取的数据行数。上面这些参数在上述的三个函数里都可以使用。
在读取 txt
文件时,经常遇到分隔符非空格的情况, read_table
有一个分割参数 sep
,它使得用户可以自定义分割符号,进行 txt
数据的读取。
一般在数据写入中,最常用的操作是把 index
设置为 False
,特别当索引没有特殊意义的时候,这样的行为能把索引在保存的时候去除。
pandas
中没有定义 to_table
函数,但是 to_csv
可以保存为 txt
文件,并且允许自定义分隔符,常用制表符 \t
分割
如果想要把表格快速转换为 markdown
和 latex
语言,可以使用 to_markdown
和 to_latex
函数,此处需要安装 tabulate
包。
pandas
中具有两种基本的数据存储结构,存储一维 values
的 Series
和存储二维 values
的 DataFrame
,在这两种结构上定义了很多的属性和方法。
Series
一般由四个部分组成,分别是序列的值 data
、索引 index
、存储类型 dtype
、序列的名字 name
。其中,索引也可以指定它的名字,默认为空。
DataFrame
在 Series
的基础上增加了列索引,一个数据框可以由二维的 data
与行列索引来构造
安装 numpy 和 pandas 与安装 jupyter 类似 都是在前面加上 pip install )
pandas 类似于excel(表格)
导入 numpy 和 pandas
import numpy as np
import pandas as pd
相对路径
df = pd.read_csv(‘train.csv’)
df
绝对路径
df= pd.read_csv (r'电脑中文件所在路径’)
df
设计数据模块,逐块读取
chunker = pd.read_csv('./train.csv',chunksize=1000) #读取并定义1000的数据块
for i in chunker :
print (i)
改表头
df = pd.read_csv ('train.csv',names=['表头','表头','表头'],header = 0)df
查看每一列数据的名称用df.columns
在哪个文件夹输入cmd并输入 jupyter notebook.\就能打开终端并确定打开 jupyter notebook时对应的文件