python之pandas数据分析包

blog_1103

已于 2022-04-29 23:00:57 修改

阅读量808

点赞数

文章标签： pandas

于 2018-10-31 22:06:33 首次发布

本文链接：https://blog.csdn.net/qq_42393859/article/details/83590927

版权

本文详细介绍了如何使用Python的pandas库进行数据清洗，包括替换空单元格、格式错误数据的处理、错误数据的纠正以及删除重复数据。通过实例展示了mean(), median(), mode()方法计算均值、中位数和众数来填充缺失值，以及如何处理格式错误的日期和设置数据异常的阈值。此外，还演示了如何删除重复数据。" 132610227,19694787,简易嵌入式CA/TA应用详解,"['嵌入式开发', '交互设计', '教学技术', '计算机辅助软件']

摘要由CSDN通过智能技术生成

参考文档：用户指南 — 熊猫 1.4.2 文档 (pydata.org)

Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。

pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

实际开发中的一些方法

import pandas as pd
# 读取数据
#通用的方法，将数据读取为表格形式,usecols列对应下标选择，sep分隔符
#csv_data = pd.read_csv('a1026a.csv', usecols=['speed', 'pace', 'tug'])
#data = np.array(csv_data[['speed', 'pace']])
#target = np.array(csv_data['tug'])
#X=pd.read_table(r'F:\zhangzhe_file\dating.txt',usecols=(0,1,2),sep='\t')
# Y=pd.read_table(r'F:\zhangzhe_file\dating.txt',usecols=(3,),sep='\t')
# print(type(Y))
# 操作数据
#print(X.head(5)) # 查看前几行的数据
#print(X.tail(4)) # 查看后几行的数据
#print(X.columns) #查看列名
#X.columns=['x1','x2','x3'] #修改列名
#print(X.head(5))
#print(X.values) #显示所有数据
#print(X.describe()) # 显示对数据的统计（数量，最大值，最小值，平均值等信息）
#print(X.max()) # 返回每列的最大值
# print(X.min()) #返回每列最小值
# print('-------')
# print(X.mean()) #返回每列的平均值
# print('-------')
# print(X.std()) #返回每列的方差
#print(X.T) #转置
#print(X.sort_index(axis=1)) #按照轴对索引进行排序
#print(X.sort_values(by=['salary','taobao'])) # 按照值对列进行排序，多个列排序，按照列表的顺序排序
#print(X['salary']) # 以key，value的形式访问一列数据
#print(X.salary) # 以属性的形式访问一列数据
#print(X[0:3])  # 做切片，只能以行做切片，不能以列做切片
#通过标签来选择查看数据
#print(X.loc[:,'salary':'taobao']) # 支持对行列做切片 支持列名 连续列
#print(X.loc[:,['salary','tv']])# 支持对行列做切片 支持列名 不连续列
#print(X.loc[1,'salary']) # 取出一个值
#print(X.at[1,'salary']) # 快速取值  同上
#print(X.loc[1,1]) # 错误的使用方式，列只支持列名的索引

# 通过下标来查看数据
#print(X.