pandas主要用来进行数据处理
numpy 科学计算
matplotlib 数据可视化
pandas结构核心:
series --一维结构(了解)
dataframe —二维结构(重点)
pannel —三维结构–面板结构(知道)
1.文本文件读取
文本文件是一种由若干行字符构成的计算机文件,它是一种典型的顺序文件。
csv 是一种逗号分隔的文件格式,因为其分隔符不一定是逗号,又被称为字符分隔文件,文件以
纯文本形式存储表格数据(数字和文本)。
读取方式:
使用read_table
函数来读取csv文件
pandas.read_table(filepath_or_buffer, sep=’\t’, header=’infer’, names=None,
index_col=None, dtype=None, engine=None, nrows=None)
使用read_csv
函数来读取csv文件
pandas.read_csv(filepath_or_buffer, sep=’\t’, header=’infer’, names=None,
index_col=None, dtype=None, engine=None, nrows=None)
read_table
和read_csv
常用参数及其说明:
read_table和read_csv函数中的
sep参数
是指定文本的分隔符的,如果分隔符指定错误,在读 取数据的时候,每一行数据将连成一片。
header
参数是用来指定列名的,如果是None则会添加一个默认的列名。
encoding
代表文件的编码格式,常用的编码有utf-8、utf-16、 、gb2312、gb18030等。
如果编码指定错误数据将无法读取,IPython解释器会报解析错误。
2.文本文件存储
文本文件的存储和读取类似,结构化数据可以通过pandas中的to_csv
函数实现以csv文件格式存储文件:
DataFrame.to_csv( , sep=’,’, na_rep=”, columns=None, header=True,
index=True,index_label=None,mode=’w’,encoding=None)
3.Excel文件读取
pandas提供了read_excel函数来读取“xls”“xlsx”两种Excel文件。
pandas.read_excel(io, sheetname=0, header=0,
index_col=None, names=None, dtype=None)
4.Excel文件储存
将文件存储为Excel文件,可以使用to_excel
方法。其语法格式如下。
DataFrame.to_excel( , sheet_name='None', na_rep=”, header=True,
index=True, index_label=None, mode=’w’, encoding=None)
和to_csv方法的常用参数基本一致,区别之处在于指定存储文件的文件路径参数名称为excel_writer,并且 没有sep
参数, ,默认为sheet1。
5.DataFrame常用操作
5.1 查看访问DataFrame中的数据——数据基本查看方式
对单列数据的访问:DataFrame的单列数据为一个Series。
根据DataFrame的定义可以知晓DataFrame 是一个带有标签的二维数组,每个标签相当每一列的列名。有以下两种方式来实现对单列数据的访问。
(1)
以字典访问某一个key的值的方式使用对应的列名,实现单列数据的访问。
(2)
以属性的方式访问,实现单列数据的访问。(不建议使用,易引起混淆)
对某一列的某几行访问:访问DataFrame中某一列的某几行时,单独一列的DataFrame可以视为一个 Series(另一种pandas提供的类,可以看作是只有一列的DataFrame),而访问一个Series基本和访问
一个一维的ndarray相同。
对多列数据访问:访问DataFrame多列数据可以将多个列索引名称视为一个列表,同时访问DataFrame
多列数据中的多行数据和访问单列数据的多行数据方法基本相同。
5.2 查看访问DataFrame中的数据——loc,iloc访问方式
loc
方法是针对DataFrame索引名称
的切片方法,如果传入的不是索引名称,那么切片操作将无法执行。 利用loc方法,能够实现所有单层索引切片操作。loc方法使用方法如下。
DataFrame.loc[行索引名称或条件, 列索引名称]
iloc和loc区别是iloc接收的必须是行索引和列索引的位置。iloc
方法的使用方法如下。
DataFrame.iloc[行索引位置, 列索引位置]
使用loc方法和iloc实现多列切片
:其原理的通俗解释就是将多列的列名或者位置作为一个列表或者数据传 入。
使用loc,iloc方法可以取出DataFrame中的任意数据。</