Python数据分析 三剑客篇(二)Pandas

Pandas(数据读取)

  • pandas 和 numpy 相辅相成,pandas功能主要为统计分析,对数据进行一个预处理 读写不同数据源数据(重点介绍CSV数据)

import pandas as pd
train=pd.read_csv(’/Users/a/Desktop/Titanic/train.csv’)
#读取文件,如果代码和数据在同一个文件夹,可以写文件名即可 print(type(train))
#输出:<class ‘pandas.core.frame.DataFrame’> print(train.dtypes)
#打印每一列的数据类型,输出如下: PassengerId int64 Survived int64 Pclass int64 Name object Sex object Age
float64 SibSp int64 Parch int64 Ticket
object Fare float64 Cabin object Embarked
object dtype: object print(help(pd.read_csv))
#打印帮助文档,后面会很常用

print(‘数据前5行为:’,train.head(5))#显示数据前5行输出如下:

数据前5行为: PassengerId Survived Pclass … Fare Cabin Embarked
0 1 0 3 … 7.2500 NaN S 1
2 1 1 … 71.2833 C85 C 2 3
1 3 … 7.9250 NaN S 3 4 1
1 … 53.1000 C123 S 4 5 0 3 …
8.0500 NaN S

[5 rows x 12 columns]

print(‘数据尾5行为:’,train.tail(5))#显示数据尾5行输出如下:

数据尾5行为: PassengerId Survived Pclass … Fare Cabin Embarked
886 887 0 2 … 13.00 NaN S 887
888 1 1 … 30.00 B42 S 888 889
0 3 … 23.45 NaN S 889 890 1
1 … 30.00 C148 C 890 891 0 3 …
7.75 NaN Q

[5 rows x 12 columns]

print(‘列名为’,train.columns)#显示每一个列名输出如下:

列名为 Index([‘PassengerId’, ‘Survived’, ‘Pclass’, ‘Name’, ‘Sex’, ‘Age’,
‘SibSp’,
‘Parch’, ‘Ticket’, ‘Fare’, ‘Cabin’, ‘Embarked’],
dtype=‘object’) print(’-----------------------------’) print(‘规模为:’,train.shape)#显示数据规模输出如下: 规模为: (891, 12)

查看DataFrame的元素个数
print(‘列表中元素个数为:’,train.size)
print(‘列表维度为:’,train.ndim)
用T属性转置操作
print(‘转置前列表的形状为:’,train.shape)
print(‘转置后列表的形状为’,train.T.shape)

>     #输出如下:
>     列表中元素个数为: 10692
>     列表维度为: 2
>     转置前列表的形状为: (891, 12)
>     转置后列表的形状为 (12, 891)

简单的切片和索引

index1=train.loc[0] index2=train.loc[3:6] print(index1) print(index2)
输出如下: PassengerId 1 Survived
0 Pclass 3 Name Braund, Mr.
Owen Harris Sex male Age
22 SibSp 1 Parch
0 Ticket A/5 21171 Fare
7.25 Cabin NaN Embarked S Name: 0, dtype: object PassengerId Survived Pclass …
Fare Cabin Embarked 3 4 1 1 … 53.1000
C123 S 4 5 0 3 … 8.0500 NaN
S 5 6 0 3 … 8.4583 NaN Q 6
7 0 1 … 51.8625 E46 S

[4 rows x 12 columns]

简单介绍一下排序

.sort_values(“ ”, impalce = True ,ascending=True)

解释:implace控制是在新的DataFrame上操作,还是就在原有dataFrame操做
ascending控制升序还是降序,True时升序,false时降序

具体pandas使用会在后续对Titanic案例分析时详解

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值