import pandas as pd
import matplotlib.pyplot as plt
from pandas import Series,DataFrame
# 显示所以列
# pd.set_option('display.max_columns', None)
# # 显示所有行
# pd.set_option('display.max_rows', None)
# # 设置value的显示长度为100,默认为50
# pd.set_option('max_colwidth', 100)
file = "titanic/train.csv"
# ---------------读取文件---------------#
data_train = pd.read_csv("titanic/train.csv")
# -------------显示基本信息--------------#
print(data_train.info()) # 数量,类型
print(data_train.describe()) # 个数、均值、标准差、最大值、最小值等信息
print(data_train.columns) # 列名
print(data_train.index) # 行索引
# ----------------索引-----------------#
# 列索引 理解为对于DataFrame 默认行优先索引, 对于Series由于只有一维,默认列优先索引
print(data_train.PassengerId)
print(data_train['PassengerId'])
print(data_train[['Age', 'Sex']]) # 双重中括号
# 行索引
print(data_train.loc[0]) # 使用标签截取数据, 索引类型和行索引类型相同, 行向量自动转化为列向量
print(data_train.iloc[0:11:2, 1::2]) # 获取 前10中中偶数行,奇数列的数据
# ---------------删除------------------#
del data_train['column-name']
data_train = data_train.drop('column_name', 1) # 不改变内存
data_train.drop('num', axix=1, inplace=True) # 改变内存
# ---------------类型转化--------------#
print(type(data_train.values)) # pandas -> numpy
print(type(pd.DataFrame(data_train.values))) # numpy -> pandas
# -------------选择列作为索引-----------#
# data_train = data_train.set_index(['Age'], drop=False)
# print(data_train.index)
# --------------部分计算-----------------#
print(data_train.sum)
print(data_train.mean)
print(data_train.cov()) # 协方差
print(data_train.PassengerId+100)
print(data_train.corr()) # 返回各列之间的相关系数df
# --------------将某列拆分成多列-----------#
dummies_Survived = pd.get_dummies(data_train['Survived'], prefix='Survived')
print(dummies_Survived)
data_train = data_train.join(dummies_Survived)
print(data_train)
# ---------------可视化------------------#
data_train.plot(kind='line', stacked=False) # stacked是否设置为堆叠图
plt.title(u"title")
plt.grid(b=True, which='major', axis='y')
plt.xlabel(u"x")
plt.ylabel(u"y")
plt.show()```
pandas常用命令总结
本文详细介绍了如何使用Python的pandas库对Titanic训练数据进行读取、基本信息查看、数据清洗、类型转换、列索引操作、部分计算、列拆分以及数据可视化的过程。
摘要由CSDN通过智能技术生成