Python数据分析三剑客篇（二）Pandas

最新推荐文章于 2022-11-03 13:11:19 发布

路人harutoo

最新推荐文章于 2022-11-03 13:11:19 发布

阅读量1.2k

点赞数 1

文章标签： Python Pandas

本文链接：https://blog.csdn.net/qq_42171569/article/details/97645079

版权

记录专栏收录该内容

17 篇文章 0 订阅

订阅专栏

Pandas（数据读取）

pandas 和 numpy 相辅相成，pandas功能主要为统计分析，对数据进行一个预处理读写不同数据源数据(重点介绍CSV数据)

import pandas as pd
train=pd.read_csv(’/Users/a/Desktop/Titanic/train.csv’)
#读取文件，如果代码和数据在同一个文件夹，可以写文件名即可 print(type(train))
#输出：<class ‘pandas.core.frame.DataFrame’> print(train.dtypes)
#打印每一列的数据类型，输出如下： PassengerId int64 Survived int64 Pclass int64 Name object Sex object Age
float64 SibSp int64 Parch int64 Ticket
object Fare float64 Cabin object Embarked
object dtype: object print(help(pd.read_csv))
#打印帮助文档，后面会很常用

print(‘数据前5行为：’,train.head(5))#显示数据前5行输出如下：

数据前5行为： PassengerId Survived Pclass … Fare Cabin Embarked
0 1 0 3 … 7.2500 NaN S 1
2 1 1 … 71.2833 C85 C 2 3
1 3 … 7.9250 NaN S 3 4 1
1 … 53.1000 C123 S 4 5 0 3 …
8.0500 NaN S

[5 rows x 12 columns]

print(‘数据尾5行为：’,train.tail(5))#显示数据尾5行输出如下：

数据尾5行为： PassengerId Survived Pclass … Fare Cabin Embarked
886 887 0 2 … 13.00 NaN S 887
888 1 1 … 30.00 B42 S 888 889
0 3 … 23.45 NaN S 889 890 1
1 … 30.00 C148 C 890 891 0 3 …
7.75 NaN Q

[5 rows x 12 columns]

print(‘列名为’,train.columns)#显示每一个列名输出如下：

列名为 Index([‘PassengerId’, ‘Survived’, ‘Pclass’, ‘Name’, ‘Sex’, ‘Age’,
‘SibSp’,
‘Parch’, ‘Ticket’, ‘Fare’, ‘Cabin’, ‘Embarked’],
dtype=‘object’) print(’-----------------------------’) print(‘规模为：’,train.shape)#显示数据规模输出如下：规模为： (891, 12)

查看DataFrame的元素个数
print(‘列表中元素个数为：’,train.size)
print(‘列表维度为：’,train.ndim)
用T属性转置操作
print(‘转置前列表的形状为：’,train.shape)
print(‘转置后列表的形状为’,train.T.shape)

>     #输出如下：
>     列表中元素个数为： 10692
>     列表维度为： 2
>     转置前列表的形状为： (891, 12)
>     转置后列表的形状为 (12, 891)

简单的切片和索引

index1=train.loc[0] index2=train.loc[3:6] print(index1) print(index2)
输出如下： PassengerId 1 Survived
0 Pclass 3 Name Braund, Mr.
Owen Harris Sex male Age
22 SibSp 1 Parch
0 Ticket A/5 21171 Fare
7.25 Cabin NaN Embarked S Name: 0, dtype: object PassengerId Survived Pclass …
Fare Cabin Embarked 3 4 1 1 … 53.1000
C123 S 4 5 0 3 … 8.0500 NaN
S 5 6 0 3 … 8.4583 NaN Q 6
7 0 1 … 51.8625 E46 S

[4 rows x 12 columns]

简单介绍一下排序

.sort_values(“ ”, impalce = True ,ascending=True)

解释：implace控制是在新的DataFrame上操作，还是就在原有dataFrame操做
ascending控制升序还是降序，True时升序，false时降序

具体pandas使用会在后续对Titanic案例分析时详解

路人harutoo

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python数据分析三剑客篇（二）Pandas

Pandas（数据读取）pandas 和 numpy 相辅相成，pandas功能主要为统计分析，对数据进行一个预处理读写不同数据源数据(重点介绍CSV数据)import pandas as pdtrain=pd.read_csv(’/Users/a/Desktop/Titanic/train.csv’)#读取文件，如果代码和数据在同一个文件夹，可以写文件名即可 print(type...
复制链接

扫一扫