Python数据分析——Pandas

Pandas有两种主要的数据结构:系列(Series)、数据帧(DataFrame)。
系列( Series 是一种具有 索引 的类似于 一维数组 的数据结构。
数据帧( DataFrame 是一种既有 行索引 又有 列索引 的类似于 二维 数组的数
据结构。

 根据索引值获取数据

height=[1,2,3,4]
names = ['吴明', '王毅', '陈辉', '魏云'] # 创建一个列表
s2 = pd.Series(height, index=names) # 作为index参数
print(s2['吴明'], sep='')

字典创建Series 【key作为行索引】

dict={'A':1,'B':(2,3)}
a=pd.Series(dict)
print(a)

A         1
B    (2, 3)
dtype: object

(2)Series的数据和索引
series.values
series的值(数组类型)
series.index
series的索引(索引对象类型)
series.items()
(索引,值)对
(3)通过Series的索引取值
位置索引
通过0 ~ n-1进行索引
名称索引
通过传入指定的index名称来进行索引
点索引
通过"series.index名称"的形式进行索引
(注意:index类型为非数值类型才可以使用)
布尔索引
通过series[布尔表达式]取数

 


DataFrame数据帧
数据帧(DataFrame)是一种 既有行索引又有列索引的二维数组
(1)创建DataFrame
Pandas.DataFrame()

 

 

(2)DataFrame的数据和索引
dataframe.values
dataframe的数据(二维数组类型)
dataframe.index
dataframe的行索引
df.columns
dataframe的列索引
在创建dataframe时缺值
自动填充NaN( Not a Number
(4)pandas中NaN的处理
主要有以下几个方法:
查看是否是nan: isnull() 、notnull()、 isna()、notna()
丢弃有nan的索引项:dropna()
将nan填充为其他值:fillna()

 

 


 


读取文件

读取外部数据分为读取 文件 数据库 网络 中的数据。
保存数据的文件主要有CSV、Excel、txt和 json,本节主要介绍使用较多的
CSV和Excel文件,txt文件和json的使用与CSV和Excel的使用相似。
数据库数据读取分为两部分:建立连接、执行SQL语句。本部分介绍如何读
取Sqlite数据库。
网络数据的读取使用最多的是网络爬虫,Pandas提供了read_htlm函数读取
网页数据(read_html() 函数是最简单的爬虫,可以爬取静态网页表格数据)。
3.3.1 读写csv文件
(1)read_csv
CSV(Comma-Separated Values)格式的文件是指以纯文本形式存储的表格数
据,巨量的数据常使用CSV格式。
(2)read_table
函数read_table与read_csv大同小异,不同处是read_table默认分隔符为制表符,
而read_csv默认的分隔符为英文逗号。
(3)to_csv
函数to_csv用来把DataFrame数据保存数据到CSV文件。
(4)read_Excel
(5)to_excel

 

  • 12
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值