数据分析之pandas的使用

最新推荐文章于 2022-07-29 23:33:21 发布

wapecheng

最新推荐文章于 2022-07-29 23:33:21 发布

阅读量2.5k

点赞数

分类专栏：学习笔记文章标签： pandas 数据分析

本文链接：https://blog.csdn.net/wapecheng/article/details/97648946

版权

本文详细介绍了pandas库在数据分析中的运用，包括数据读取、数据类型、DataFrame方法、统计方法、时间格式处理、数据合并、函数应用、数据清洗等方面。讲解了如何进行数据类型转换、时间序列操作、数据合并策略、数据分组和透视表、异常值检测、空值处理等关键操作，旨在提升数据处理能力。

摘要由CSDN通过智能技术生成

数据读取

读取csv文本文件（csv文件一般编码方式为gbk）

pd.read_table(r'路径\info.csv',encoding='编码方式'，seq=',')
pd.read_csv(r'路径\info.csv',encoding='编码方式'，seq=',')

读取excel文件

pd.read_excel(r'路径\detail.xlsx',sheet_name=1,header=1)

参数：sheet_namee= 1，读取第一张表格的数据，index_col指定第几列为行索引，header=1指定第一行为列索引，

合并多工作表的文件：

workbook = xlrd.open_workbook("meal_order_detail.xlsx")
sheets = workbook.sheet_names()
total = DataFrame()# 定义存储所有数据的容器
for i in range(len(sheets)):# 循环遍历所有sheet,汇总多表中的所有数据
data=pd.read_excel("./matplot_data/meal_order_detail.xlsx",sheetname=i,index_col=False)
    total = total.append(data)#需要有变量接收返回值
fp = pd.ExcelWriter("output.xlsx")# 将数据保存为文件
total.to_excel(write,"sheet1")
fp.save()

还可以使用拼接或堆叠的方式进行合并数据

数据类型

创建Series类型数据（两种方式）：

s1 = pd.Series(['w','e','r'],index=[2,3,4])
s2 = pd.Series({
   'a':1,'b':2,'c':3}) #key:为索引值，values:数据值

series意为序列，结合了字典与列表的特点，既存在类键值对，又可以使用索引进行取值

创建DataFram类型数据（两种方式）

#第一种：以数组形式传入数据，可指定行列索引
df1 = pd.DataFrame([[1,2,3],[4,6,7]],columns=[0,0,0],index=[1,1])
  #coolumns为列索引，index为行索引
#第二种：以键值对方式传入数据，也可以指定行列索引
df2 = pd.DataFrame({
   '第一列':[1,2,3,4],'第二列':[5,6,7,8]},index=[1,2,3,4]) 
 #key为列索引，index为行索引

dataframe中的方法

data.columns#获取所有列名，可以用来作为键进行取值。例：print('order_id列的数据',data['order_id'])
data.size#元素的所有个数
data.ndim#维度
data.T#转置
type(data.values)) # 数据类型为数组类型(numpy.ndarray)
data.shape #查

最低0.47元/天解锁文章

wapecheng

关注

0
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
数据分析之pandas的使用

数据读取读取csv文本文件（csv文件一般编码方式为gbk）pd.read_table(r'路径\info.csv',encoding='编码方式'，seq=',')pd.read_csv(r'路径\info.csv',encoding='编码方式'，seq=',')读取excel文件pd.read_excel(r'路径\detail.xlsx',sheet_name=1,he...
复制链接

扫一扫