数据分析入门——pandas统计分析1

读取数据

1、读取文本文件
(1)通过read_table读取文本文件
在这里插入图片描述
(2)通过read_csv来读取csv文件
在这里插入图片描述
区别在于table是用\t来分割,csv是用,来分隔

import pandas as pd
pd.read_table('./meal_order_info.csv',encoding='gbk',sep=',')
#encoding规定了编码格式,sep确定了分隔符号

2、文本文件的存储

data.to csv('./temp/temp.csv',index=false)
#index去掉行名词

3、excel的读取
read_excel
在这里插入图片描述
在这里插入图片描述3、存储excel
to_excel

如果要在同一个工作表下存储2个表格

with pd.ExcelWriter('./tmp.xlsx')as w:
data.to_excel(w,sheet_name='a')
data.to_excel(w,sheet_name='b')

4、查询列表属性
在这里插入图片描述

data['dishes name'][:5]
#提取dishes name的前5行
data.iloc[2,2]
data.loc[2,'dishes_id']
data.loc[2:5,'dishes_id']
#2:5是闭区间

数据的修改与添加

data2=data.loc[data['order_id']=='458',:]
data2=['order_id']='45800'
#为数据添加列
data2['price']=data2['counts']*data2['amounts']

删除某行或某列
在这里插入图片描述axis=0时,删除行;axis=1时,删除列

pandas描述统计分析

data.describe()
在这里插入图片描述类别型特征的描述统计

data['dishes_name'].value_counts()
#频数统计

pandas提供categories类的方法,可以使用astype方法将目标特征的数据类型转换为类别,如将名称类型可以转换成类别进行统计

data['dishes_name'].astype('category').describe()

在这里插入图片描述

转换时间类型数据

1、将字符串时间转化为标准时间
dtype:object代表的是字符串时间

pd.to_datetime(data['lock_time'])

注意python时间存储是有范围的必须在时间存储范围内输入才不会报错
2、datetimeindex与periodtimeindex
datetimeindex是用来指代一系列时间点的一种数据结构;periodtimeindex是指代一系列时间段的数据结构
3、提取时间序列信息

a=data.loc[0,'lock_time']
a.year

4、timedelta可以正也可以负

data['lock_time']+pd.Timedelta(days=1,seconds=1)

给时间加上一天一秒

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值