Pandas(数据读取)
- pandas 和 numpy 相辅相成,pandas功能主要为统计分析,对数据进行一个预处理 读写不同数据源数据(重点介绍CSV数据)
import pandas as pd
train=pd.read_csv(’/Users/a/Desktop/Titanic/train.csv’)
#读取文件,如果代码和数据在同一个文件夹,可以写文件名即可 print(type(train))
#输出:<class ‘pandas.core.frame.DataFrame’> print(train.dtypes)
#打印每一列的数据类型,输出如下: PassengerId int64 Survived int64 Pclass int64 Name object Sex object Age
float64 SibSp int64 Parch int64 Ticket
object Fare float64 Cabin object Embarked
object dtype: object print(help(pd.read_csv))
#打印帮助文档,后面会很常用
print(‘数据前5行为:’,train.head(5))#显示数据前5行输出如下:
数据前5行为: PassengerId Survived Pclass … Fare Cabin Embarked
0 1 0 3 … 7.2500 NaN S 1
2 1 1 … 71.2833 C85 C 2 3
1 3 … 7.9250 NaN S 3 4 1
1 … 53.1000 C123 S 4 5 0 3 …
8.0500 NaN S[5 rows x 12 columns]
print(‘数据尾5行为:’,train.tail(5))#显示数据尾5行输出如下:
数据尾5行为: PassengerId Survived Pclass … Fare Cabin Embarked
886 887 0 2 … 13.00 NaN S 887
888 1 1 … 30.00 B42 S 888 889
0 3 … 23.45 NaN S 889 890 1
1 … 30.00 C148 C 890 891 0 3 …
7.75 NaN Q[5 rows x 12 columns]
print(‘列名为’,train.columns)#显示每一个列名输出如下:
列名为 Index([‘PassengerId’, ‘Survived’, ‘Pclass’, ‘Name’, ‘Sex’, ‘Age’,
‘SibSp’,
‘Parch’, ‘Ticket’, ‘Fare’, ‘Cabin’, ‘Embarked’],
dtype=‘object’) print(’-----------------------------’) print(‘规模为:’,train.shape)#显示数据规模输出如下: 规模为: (891, 12)
查看DataFrame的元素个数
print(‘列表中元素个数为:’,train.size)
print(‘列表维度为:’,train.ndim)
用T属性转置操作
print(‘转置前列表的形状为:’,train.shape)
print(‘转置后列表的形状为’,train.T.shape)
> #输出如下:
> 列表中元素个数为: 10692
> 列表维度为: 2
> 转置前列表的形状为: (891, 12)
> 转置后列表的形状为 (12, 891)
简单的切片和索引
index1=train.loc[0] index2=train.loc[3:6] print(index1) print(index2)
输出如下: PassengerId 1 Survived
0 Pclass 3 Name Braund, Mr.
Owen Harris Sex male Age
22 SibSp 1 Parch
0 Ticket A/5 21171 Fare
7.25 Cabin NaN Embarked S Name: 0, dtype: object PassengerId Survived Pclass …
Fare Cabin Embarked 3 4 1 1 … 53.1000
C123 S 4 5 0 3 … 8.0500 NaN
S 5 6 0 3 … 8.4583 NaN Q 6
7 0 1 … 51.8625 E46 S[4 rows x 12 columns]
简单介绍一下排序
.sort_values(“ ”, impalce = True ,ascending=True)
解释:implace控制是在新的DataFrame上操作,还是就在原有dataFrame操做
ascending控制升序还是降序,True时升序,false时降序
具体pandas使用会在后续对Titanic案例分析时详解