数据分析之pandas的使用

本文详细介绍了pandas库在数据分析中的运用,包括数据读取、数据类型、DataFrame方法、统计方法、时间格式处理、数据合并、函数应用、数据清洗等方面。讲解了如何进行数据类型转换、时间序列操作、数据合并策略、数据分组和透视表、异常值检测、空值处理等关键操作,旨在提升数据处理能力。
摘要由CSDN通过智能技术生成

数据读取

  • 读取csv文本文件(csv文件一般编码方式为gbk)
pd.read_table(r'路径\info.csv',encoding='编码方式',seq=',')
pd.read_csv(r'路径\info.csv',encoding='编码方式',seq=',')
  • 读取excel文件
pd.read_excel(r'路径\detail.xlsx',sheet_name=1,header=1)

参数:sheet_namee= 1,读取第一张表格的数据,index_col指定第几列为行索引,header=1指定第一行为列索引,

  • 合并多工作表的文件:
workbook = xlrd.open_workbook("meal_order_detail.xlsx")
sheets = workbook.sheet_names()
total = DataFrame()# 定义存储所有数据的容器
for i in range(len(sheets)):# 循环遍历所有sheet,汇总多表中的所有数据
data=pd.read_excel("./matplot_data/meal_order_detail.xlsx",sheetname=i,index_col=False)
    total = total.append(data)#需要有变量接收返回值
fp = pd.ExcelWriter("output.xlsx")# 将数据保存为文件
total.to_excel(write,"sheet1")
fp.save()

还可以使用拼接或堆叠的方式进行合并数据

数据类型

  • 创建Series类型数据(两种方式):
s1 = pd.Series(['w','e','r'],index=[2,3,4])
s2 = pd.Series({
   'a':1,'b':2,'c':3}) #key:为索引值,values:数据值

series意为序列,结合了字典与列表的特点,既存在类键值对,又可以使用索引进行取值

  • 创建DataFram类型数据(两种方式)
#第一种:以数组形式传入数据,可指定行列索引
df1 = pd.DataFrame([[1,2,3],[4,6,7]],columns=[0,0,0],index=[1,1])
  #coolumns为列索引,index为行索引
#第二种:以键值对方式传入数据,也可以指定行列索引
df2 = pd.DataFrame({
   '第一列':[1,2,3,4],'第二列':[5,6,7,8]},index=[1,2,3,4]) 
 #key为列索引,index为行索引

dataframe中的方法

  • data.columns#获取所有列名,可以用来作为键进行取值。例:print('order_id列的数据',data['order_id'])

  • data.size#元素的所有个数

  • data.ndim#维度

  • data.T#转置

  • type(data.values)) # 数据类型为数组类型(numpy.ndarray)

  • data.shape #查

  • 0
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值