pandas笔记

2301_80841565

已于 2024-07-22 18:59:35 修改

阅读量390

点赞数 4

文章标签： python 开发语言

于 2024-07-22 18:58:21 首次发布

本文链接：https://blog.csdn.net/2301_80841565/article/details/140617202

版权

袁德望

pandas 可以读取的文件格式有很多，这里主要介绍读取 csv, excel, txt 文件。

df_csv = pd.read_csv('data/my_csv.csv')

In [5]: df_csv
Out[5]: 
   col1 col2  col3    col4      col5
0     2    a   1.4   apple  2020/1/1
1     3    b   3.4  banana  2020/1/2
2     6    c   2.5  orange  2020/1/5
3     5    d   3.2   lemon  2020/1/7

In [6]: df_txt = pd.read_table('data/my_table.txt')

In [7]: df_txt
Out[7]: 
   col1 col2  col3             col4
0     2    a   1.4   apple 2020/1/1
1     3    b   3.4  banana 2020/1/2
2     6    c   2.5  orange 2020/1/5
3     5    d   3.2   lemon 2020/1/7

In [8]: df_excel = pd.read_excel('data/my_excel.xlsx')

In [9]: df_excel
Out[9]: 
   col1 col2  col3    col4      col5
0     2    a   1.4   apple  2020/1/1
1     3    b   3.4  banana  2020/1/2
2     6    c   2.5  orange  2020/1/5
3     5    d   3.2   lemon  2020/1/7

这里有一些常用的公共参数， header=None 表示第一行不作为列名， index_col 表示把某一列或几列作为索引，索引的内容将会在第三章进行详述， usecols 表示读取列的集合，默认读取所有的列， parse_dates 表示需要转化为时间的列， nrows 表示读取的数据行数。上面这些参数在上述的三个函数里都可以使用。

在读取 txt 文件时，经常遇到分隔符非空格的情况， read_table 有一个分割参数 sep ，它使得用户可以自定义分割符号，进行 txt 数据的读取。

一般在数据写入中，最常用的操作是把 index 设置为 False ，特别当索引没有特殊意义的时候，这样的行为能把索引在保存的时候去除。

pandas 中没有定义 to_table 函数，但是 to_csv 可以保存为 txt 文件，并且允许自定义分隔符，常用制表符 \t 分割

如果想要把表格快速转换为 markdown 和 latex 语言，可以使用 to_markdown 和 to_latex 函数，此处需要安装 tabulate 包。

pandas 中具有两种基本的数据存储结构，存储一维 values 的 Series 和存储二维 values 的 DataFrame ，在这两种结构上定义了很多的属性和方法。

Series 一般由四个部分组成，分别是序列的值 data 、索引 index 、存储类型 dtype 、序列的名字 name 。其中，索引也可以指定它的名字，默认为空。

DataFrame 在 Series 的基础上增加了列索引，一个数据框可以由二维的 data 与行列索引来构造

安装 numpy 和 pandas 与安装 jupyter 类似都是在前面加上 pip install ）
pandas 类似于excel（表格）

导入 numpy 和 pandas
import numpy as np
import pandas as pd

相对路径

df = pd.read_csv（‘train.csv’）
df

绝对路径

df= pd.read_csv (r'电脑中文件所在路径’)
df
设计数据模块，逐块读取
chunker = pd.read_csv('./train.csv',chunksize=1000) #读取并定义1000的数据块
for i in chunker :
print (i)
改表头
df = pd.read_csv ('train.csv',names=['表头','表头','表头'],header = 0)df
查看每一列数据的名称用df.columns
在哪个文件夹输入cmd并输入 jupyter notebook.\就能打开终端并确定打开 jupyter notebook时对应的文件