Pandas统计分析基础_数据处理(DataFrame常用操作)

本文介绍了Pandas在数据处理中的作用,详细讲解了DataFrame的读取、存储、切片、修改和描述性统计分析。内容涵盖文本和Excel文件的读写、常用操作如loc和iloc的使用,以及数据的更新、添加和删除。同时,讨论了数值型和类别型特征的描述性统计方法。
摘要由CSDN通过智能技术生成

pandas主要用来进行数据处理

numpy 科学计算

matplotlib 数据可视化

pandas结构核心:

series --一维结构(了解)
dataframe —二维结构(重点)
pannel —三维结构–面板结构(知道)

1.文本文件读取

文本文件是一种由若干行字符构成的计算机文件,它是一种典型的顺序文件。

csv 是一种逗号分隔的文件格式,因为其分隔符不一定是逗号,又被称为字符分隔文件,文件以
纯文本形式存储表格数据(数字和文本)。

读取方式:
使用read_table函数来读取csv文件

pandas.read_table(filepath_or_buffer, sep=’\t’, header=’infer’, names=None,
index_col=None, dtype=None, engine=None, nrows=None)

使用read_csv函数来读取csv文件

pandas.read_csv(filepath_or_buffer, sep=’\t’, header=’infer’, names=None,
index_col=None, dtype=None, engine=None, nrows=None)

read_tableread_csv常用参数及其说明:
在这里插入图片描述

read_table和read_csv函数中的sep参数是指定文本的分隔符的,如果分隔符指定错误,在读 取数据的时候,每一行数据将连成一片。

header参数是用来指定列名的,如果是None则会添加一个默认的列名。

encoding代表文件的编码格式,常用的编码有utf-8、utf-16、 、gb2312、gb18030等。
如果编码指定错误数据将无法读取,IPython解释器会报解析错误。

2.文本文件存储

文本文件的存储和读取类似,结构化数据可以通过pandas中的to_csv函数实现以csv文件格式存储文件:

DataFrame.to_csv( , sep=’,’, na_rep=”, columns=None, header=True, 
index=True,index_label=None,mode=’w’,encoding=None)

在这里插入图片描述

3.Excel文件读取

pandas提供了read_excel函数来读取“xls”“xlsx”两种Excel文件。

pandas.read_excel(io, sheetname=0, header=0, 
index_col=None, names=None, dtype=None)

在这里插入图片描述

4.Excel文件储存

将文件存储为Excel文件,可以使用to_excel方法。其语法格式如下。

DataFrame.to_excel( , sheet_name='None', na_rep=”, header=True,

index=True, index_label=None, mode=’w’, encoding=None)

和to_csv方法的常用参数基本一致,区别之处在于指定存储文件的文件路径参数名称为excel_writer,并且 没有sep参数, ,默认为sheet1。

5.DataFrame常用操作

在这里插入图片描述

5.1 查看访问DataFrame中的数据——数据基本查看方式

对单列数据的访问:DataFrame的单列数据为一个Series。

根据DataFrame的定义可以知晓DataFrame 是一个带有标签的二维数组,每个标签相当每一列的列名。有以下两种方式来实现对单列数据的访问。

(1)以字典访问某一个key的值的方式使用对应的列名,实现单列数据的访问。

(2)以属性的方式访问,实现单列数据的访问。(不建议使用,易引起混淆)

对某一列的某几行访问:访问DataFrame中某一列的某几行时,单独一列的DataFrame可以视为一个 Series(另一种pandas提供的类,可以看作是只有一列的DataFrame),而访问一个Series基本和访问
一个一维的ndarray相同。

对多列数据访问:访问DataFrame多列数据可以将多个列索引名称视为一个列表,同时访问DataFrame
多列数据中的多行数据和访问单列数据的多行数据方法基本相同。
在这里插入图片描述

在这里插入图片描述

5.2 查看访问DataFrame中的数据——loc,iloc访问方式

loc方法是针对DataFrame索引名称的切片方法,如果传入的不是索引名称,那么切片操作将无法执行。 利用loc方法,能够实现所有单层索引切片操作。loc方法使用方法如下。

DataFrame.loc[行索引名称或条件, 列索引名称]

iloc和loc区别是iloc接收的必须是行索引和列索引的位置。iloc方法的使用方法如下。

DataFrame.iloc[行索引位置, 列索引位置]

使用loc方法和iloc实现多列切片:其原理的通俗解释就是将多列的列名或者位置作为一个列表或者数据传 入。

使用loc,iloc方法可以取出DataFrame中的任意数据。</

  • 14
    点赞
  • 110
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值