Python数据分析——Pandas

最新推荐文章于 2024-07-22 21:10:20 发布

Ruannn（努力版）

最新推荐文章于 2024-07-22 21:10:20 发布

阅读量881

点赞数 12

分类专栏：数据分析文章标签： python 数据分析 pandas

本文链接：https://blog.csdn.net/Ruannn/article/details/139012297

版权

数据分析专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Pandas有两种主要的数据结构：系列(Series)、数据帧(DataFrame)。

 系列（ Series ）是一种具有索引的类似于 一维数组 的数据结构。

 数据帧（ DataFrame ）是一种既有 行索引 又有 列索引 的类似于二维数组的数

据结构。

根据索引值获取数据

height=[1,2,3,4]
names = ['吴明', '王毅', '陈辉', '魏云'] # 创建一个列表
s2 = pd.Series(height, index=names) # 作为index参数
print(s2['吴明'], sep='')

字典创建Series 【key作为行索引】

dict={'A':1,'B':(2,3)}
a=pd.Series(dict)
print(a)

A 1
B (2, 3)
dtype: object

（2）Series的数据和索引

 series.values

series的值（数组类型）

 series.index

series的索引（索引对象类型）

 series.items()

（索引，值）对

（3）通过Series的索引取值

 位置索引

通过0 ~ n-1进行索引

 名称索引

通过传入指定的index名称来进行索引

 点索引

通过"series.index名称"的形式进行索引

（注意：index类型为非数值类型才可以使用）

 布尔索引

通过series[布尔表达式]取数

DataFrame数据帧

数据帧（DataFrame）是一种 既有行索引又有列索引的二维数组 。

（1）创建DataFrame

Pandas.DataFrame()

（2）DataFrame的数据和索引

 dataframe.values

dataframe的数据（二维数组类型）

 dataframe.index

dataframe的行索引

 df.columns

dataframe的列索引

 在创建dataframe时缺值

自动填充NaN（ Not a Number ）

（4）pandas中NaN的处理

主要有以下几个方法：

 查看是否是nan： isnull() 、notnull()、 isna（）、notna（）

 丢弃有nan的索引项：dropna()

 将nan填充为其他值：fillna()

读取文件

读取外部数据分为读取文件、 数据库 和网络中的数据。

• 保存数据的文件主要有CSV、Excel、txt和 json，本节主要介绍使用较多的

CSV和Excel文件，txt文件和json的使用与CSV和Excel的使用相似。

• 数据库数据读取分为两部分：建立连接、执行SQL语句。本部分介绍如何读

取Sqlite数据库。

• 网络数据的读取使用最多的是网络爬虫，Pandas提供了read_htlm函数读取

网页数据（read_html() 函数是最简单的爬虫，可以爬取静态网页表格数据）。

3.3.1 读写csv文件

（1）read_csv

CSV（Comma-Separated Values）格式的文件是指以纯文本形式存储的表格数

据，巨量的数据常使用CSV格式。

（2）read_table

函数read_table与read_csv大同小异，不同处是read_table默认分隔符为制表符，

而read_csv默认的分隔符为英文逗号。

（3）to_csv

函数to_csv用来把DataFrame数据保存数据到CSV文件。

（4）read_Excel

（5）to_excel

Ruannn（努力版）

关注

12
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
Python数据分析——Pandas

查看是否是nan： isnull() 、notnull()、 isna（）、notna（）Pandas有两种主要的数据结构：系列(Series)、数据帧(DataFrame)。保存数据的文件主要有CSV、Excel、txt和 json，本节主要介绍使用较多的。CSV和Excel文件，txt文件和json的使用与CSV和Excel的使用相似。网络数据的读取使用最多的是网络爬虫，Pandas提供了read_htlm函数读取。网页数据（read_html() 函数是最简单的爬虫，可以爬取静态网页表格数据）。
复制链接

扫一扫

专栏目录