pandas常用知识
一、读取csv文件为dataframe
二、dataframe的数据概况
三、取列数据
四、取行数据
五、取某一单元格数据
六、缺失值处理
七、归一化处理
八、排序
九、索引重新编号
十、求均值
十一、矢量化操作(批量操作)
十二、透视表
一、读取csv文件为dataframe
pandas很好的一点是,可以操作表文件。输出为dataframe格式,这点很nice。
使用pandas.read_csv()读取csv文件,输出为dataframe格式数据。
这里数据tran.csv数据集下载自kaggle网站。
import pandas as pd
filepath = r'/Users/suosuo/Desktop/titanic/train.csv'
df = pd.read_csv(filepath)
#为了方便,我只显示三行,其实结果并不是这样子
print(df)
输出结果
PassengerId Survived Pclass \
0 1 0 3
1 2 1 1
2 3 1 3
Name Sex Age SibSp \
0 Braund, Mr. Owen Harris male 22.0 1
1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1
2 Heikkinen, Miss. Laina female 26.0 0
Parch Ticket Fare Cabin Embarked
0 0 A/5 21171 7.2500 NaN S
1 0 PC 17599 71.2833 C85 C
2 0 STON/O2. 3101282 7.9250 NaN S
检查数据类型
检测下数据格式是否为DataFrame
print(type(df))
运行结果
二、 DataFrame数据概况
我们想知道数据如下知识: 1. 展示dataframe前后几条记录 2. 显示dataframe的列名字 3. 查看dataframe的维度情况(几行几列)
2.1展示dataframe前后几行
#展示前两条记录(根据需要显示条数)
df.head(2)
运行结果
PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked
0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S
1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 71.2833 C85 C
#展示后三条记录
df.tail(3)
运行结果
PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked
888 889 0 3 Johnston, Miss. Catherine Helen "Carrie" female NaN 1 2 W./C. 6607 23.45 NaN S
889 890 1 1 Behr, Mr. Karl Howell male 26.0 0 0 111369 30.00 C148 C
890 891 0 3 Dooley, Mr. Patrick male 32.0 0 0 370376 7.75 NaN Q
2.2展示dataframe列名
#展示列名
col_names = df.columns
col_names
运行结果
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
dtype='object')
#查看下col_namesgeshi
type(col_names)
运行结果
pandas.indexes.base.Index
#将col_names转化为list
col_list =