pandas常用命令总结

本文详细介绍了如何使用Python的pandas库对Titanic训练数据进行读取、基本信息查看、数据清洗、类型转换、列索引操作、部分计算、列拆分以及数据可视化的过程。
摘要由CSDN通过智能技术生成
import pandas as pd
import matplotlib.pyplot as plt
from pandas import Series,DataFrame

# 显示所以列
# pd.set_option('display.max_columns', None)
# # 显示所有行
# pd.set_option('display.max_rows', None)
# # 设置value的显示长度为100,默认为50
# pd.set_option('max_colwidth', 100)

file = "titanic/train.csv"

# ---------------读取文件---------------#
data_train = pd.read_csv("titanic/train.csv")

# -------------显示基本信息--------------#

print(data_train.info())   # 数量,类型
print(data_train.describe())   # 个数、均值、标准差、最大值、最小值等信息
print(data_train.columns)   # 列名
print(data_train.index)     # 行索引

# ----------------索引-----------------#
# 列索引 理解为对于DataFrame 默认行优先索引, 对于Series由于只有一维,默认列优先索引
print(data_train.PassengerId)
print(data_train['PassengerId'])
print(data_train[['Age', 'Sex']])  # 双重中括号
# 行索引
print(data_train.loc[0])  # 使用标签截取数据, 索引类型和行索引类型相同, 行向量自动转化为列向量
print(data_train.iloc[0:11:2, 1::2])  # 获取 前10中中偶数行,奇数列的数据

# ---------------删除------------------#
del data_train['column-name']
data_train = data_train.drop('column_name', 1)  # 不改变内存
data_train.drop('num', axix=1, inplace=True)     # 改变内存


# ---------------类型转化--------------#
print(type(data_train.values))  # pandas -> numpy
print(type(pd.DataFrame(data_train.values)))  # numpy -> pandas

# -------------选择列作为索引-----------#
# data_train = data_train.set_index(['Age'], drop=False)
# print(data_train.index)

# --------------部分计算-----------------#
print(data_train.sum)
print(data_train.mean)
print(data_train.cov())  # 协方差
print(data_train.PassengerId+100)
print(data_train.corr())  # 返回各列之间的相关系数df

# --------------将某列拆分成多列-----------#
dummies_Survived = pd.get_dummies(data_train['Survived'], prefix='Survived')
print(dummies_Survived)
data_train = data_train.join(dummies_Survived)
print(data_train)

# ---------------可视化------------------#

data_train.plot(kind='line', stacked=False)  # stacked是否设置为堆叠图
plt.title(u"title")
plt.grid(b=True, which='major', axis='y')
plt.xlabel(u"x")
plt.ylabel(u"y")
plt.show()```

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值