Python 数据分析之pandas

pandas

标签: Python 数据分析


pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数,兼具了NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能


导入模块

import numpy as np #导入numpy库
import pandas as pd #导入pandas库

基础数据结构

pandas.Series(data, index):Series类似一维数组,由数据和索引组成,data为列表或和index为列表(一维)格式,data是数据,index是索引

s = pd.Series([2*i for i in range(1, 11)]) #基础数据结构series(第一列自动加入序号,从0开始)
print(type(s)) #查看类型
print(s) #查看数据

pandas.date_range(start, end, periods):参数分别为起始时间(字符串或时间格式)、结束时间(字符串或时间格式)、指定个数

dates = pd.date_range('20170801', periods = 8) #生成时间格式数组

pandas.DataFrame(data, index, columns):表格型的数据结构,可看成共享同一个index索引的多个Series集合,参数分别为数据、索引、列名

df = pd.DataFrame(np.random.randn(8, 5), index = dates, columns = list('ABCDE'))
print(type(df))
print(df)

df2 = pd.DataFrame({'A' : 1., 'B' : pd.Timestamp('20170801'), 'C' : pd.Series(1, index = list(range(4)),dtype = 'float32'), 'D' : np.array([3] * 4, dtype = 'int32'), 'E' : pd.Categorical(['test', 'train', 'test', 'train']), 'F' : 'foo' })
print(type(df2))
print(df2)

基础操作

print(df.head(3)) #选择前三行
print(df.tail(3)) #选择后三行
print(df.index) #索引
print(df.values) #数据
print(df.T) #转置
print(df.sort_values(by = 'C')) #按第C列的值排序
print(df.sort_index(axis = 1, ascending = False)) #按索引值排序
print(df.mean()) #每列的平均值
print(df.var()) #每列的方差
print(df.describe()) # 显示信息:每列的个数、平均值、标准差、最小值、最大值

print(df['A']) #按列名选择一列
print(df.A) #按列名选择一列
print(df[: 3, 1 : 3]) # 按切片选择行和列
print(df['20170801' : '20170803']) #按索引值切片选择

pandas.DataFrame.loc:

print(df.loc[dates[0]]) #按索引选择
print(df.loc['20170801':'20170803', ['B', 'D']]) #按索引和列名选择('20170801'、'20170802'行,B、D列)
print(df.at[dates[0], 'C']) #按索引和列名选择某个值(dates[0]行,C列)
print(df.iloc[1 : 3, 2 : 4]) #按切片选择行和列(1、2行,2、3列)
print(df.iloc[1, 4]) #选择某个值(第1行第4列)
print(df.iat[1, 4]) #选择某个值(第1行第4列)
print(df[df > 0])
print(df[df.A < 0][df.B > 0])
print(df[df['E'].isin([1, 2])])

缺失值处理

df4 = df.reindex(index = dates[: 4], columns = list('ABCD') + ['G']) #迁移数据,重建索引
df4.loc[dates[0] : dates[1], 'G'] = 1 #赋值
print(df4)
print(df4.dropna()) #丢弃有空值(NaN)的记录
print(df4.fillna(value = 2)) #用2填充空值(NaN)

统计操作

s = pd.Series([1, 2, 2, np.nan, 5, 7, 9, 10], index = dates)
print(s)
print(s.shift(2)) #值后移两个,用NAN补前两个位置
print(s.diff()) #差分(后一个数减去前一个数的值(有NAN则为NAN))
print(s.value_counts()) #统计每个值出现的次数
print(df.apply(np.cumsum) #累加
print(df.apply(lambda x: x.max() - x.min()))

文件读取

pandas.read_csv():读取csv文件

df5 = pd.read_csv('文件路径')

pandas.read_excel():读取excel文件

df6 = pd.read_excel('文件路径')
df5.to_csv() #输出到csv文件
df6.to_excel() #输出到excel文件
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
毕业设计,基于SpringBoot+Vue+MySQL开发的精简博客系统,源码+数据库+毕业论文+视频演示 当下,正处于信息化的时代,许多行业顺应时代的变化,结合使用计算机技术向数字化、信息化建设迈进。以前企业对于博客信息的管理和控制,采用人工登记的方式保存相关数据,这种以人力为主的管理模式已然落后。本人结合使用主流的程序开发技术,设计了一款基于Springboot开发的精简博客系统,可以较大地减少人力、财力的损耗,方便相关人员及时更新和保存信息。本系统主要使用B/S开发模式,在idea开发平台上,运用Java语言设计相关的系统功能模块,MySQL数据库管理相关的系统数据信息,SpringBoot框架设计和开发系统功能架构,最后通过使用Tomcat服务器,在浏览器中发布设计的系统,并且完成系统与数据库的交互工作。本文对系统的需求分析、可行性分析、技术支持、功能设计、数据库设计、功能测试等内容做了较为详细的介绍,并且在本文中也展示了系统主要的功能模块设计界面和操作界面,并对其做出了必要的解释说明,方便用户对系统进行操作和使用,以及后期的相关人员对系统进行更新和维护。本系统的实现可以极大地提高企业的工作效率,提升用户的使用体验,因此在现实生活中运用本系统具有很大的使用价值。 关键词:博客管理;Java语言;B/S结构;MySQL数据库
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值