Pandas笔记第二课堂学习upup

最新推荐文章于 2024-07-25 11:12:43 发布

Patrickwtseeword

最新推荐文章于 2024-07-25 11:12:43 发布

阅读量541

点赞数 28

文章标签： pandas 笔记学习

本文链接：https://blog.csdn.net/Patrickwtseeword/article/details/140631725

版权

这门课程得主要目的是通过真实的数据，以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后，我们接下来我们要正式的开始数据分析的实战教学，完成kaggle上泰坦尼克的任务，实战数据分析全流程。这里有两份资料需要大家准备：图书《Python for Data Analysis》第六章和 baidu.com & bing.com（善用搜索引擎）

[26]:

df.tail(15)

[26]:

	是否幸存	仓位等级	姓名	性别	年龄	兄弟姐妹个数	父母子女个数	船票信息	票价	客舱	登船港口
乘客ID
877	0	3	Gustafsson, Mr. Alfred Ossian	male	20.0	0	0	7534	9.8458	NaN	S
878	0	3	Petroff, Mr. Nedelio	male	19.0	0	0	349212	7.8958	NaN	S
879	0	3	Laleff, Mr. Kristo	male	NaN	0	0	349217	7.8958	NaN	S
880	1	1	Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)	female	56.0	0	1	11767	83.1583	C50	C
881	1	2	Shelley, Mrs. William (Imanita Parrish Hall)	female	25.0	0	1	230433	26.0000	NaN	S
882	0	3	Markun, Mr. Johann	male	33.0	0	0	349257	7.8958	NaN	S
883	0	3	Dahlberg, Miss. Gerda Ulrika	female	22.0	0	0	7552	10.5167	NaN	S
884	0	2	Banfield, Mr. Frederick James	male	28.0	0	0	C.A./SOTON 34068	10.5000	NaN	S
885	0	3	Sutehall, Mr. Henry Jr	male	25.0	0	0	SOTON/OQ 392076	7.0500	NaN	S
886	0	3	Rice, Mrs. William (Margaret Norton)	female	39.0	0	5	382652	29.1250	NaN	Q
887	0	2	Montvila, Rev. Juozas	male	27.0	0	0	211536	13.0000	NaN	S
888	1	1	Graham, Miss. Margaret Edith	female	19.0	0	0	112053	30.0000	B42	S
889	0	3	Johnston, Miss. Catherine Helen "Carrie"	female	NaN	1	2	W./C. 6607	23.4500	NaN	S
890	1	1	Behr, Mr. Karl Howell	male	26.0	0	0	111369	30.0000	C148	C
891	0	3	Dooley, Mr. Patrick	male	32.0	0	0	370376	7.7500	NaN	Q

1.2.4 任务三：判断数据是否为空，为空的地方返回True，其余地方返回False

[27]:

df.isnull().head(5)

[27]:

	是否幸存	仓位等级	姓名	性别	年龄	兄弟姐妹个数	父母子女个数	船票信息	票价	客舱	登船港口
乘客ID
1	False	False	False	False	False	False	False	False	False	True	False
2	False	False	False	False	False	False	False	False	False	False	False
3	False	False	False	False	False	False	False	False	False	True	False
4	False	False	False	False	False	False	False	False	False	False	False
5	False	False	False	False	False	False	False	False	False	True	False

【总结】上面的操作都是数据分析中对于数据本身的观察

【思考】对于一个数据，还可以从哪些方面来观察？找找答案，这个将对下面的数据分析有很大的帮助

1.3 保存数据

1.3.1 任务一：将你加载并做出改变的数据，在工作目录下保存为一个新文件train_chinese.csv

[28]:

# 注意：不同的操作系统保存下来可能会有乱码。大家可以加入`encoding='GBK' 或者 ’encoding = ’utf-8‘‘`

df.to_csv('train_chinese.csv')

【总结】数据的加载以及入门，接下来就要接触数据本身的运算，我们将主要掌握numpy和pandas在工作和项目场景的运用。

第一章：pandas基础

【思考】这个reset_index()函数的作用是什么？如果不用这个函数，下面的任务会出现什么情况？

[29]:

#作用：重置索引时，将旧索引添加为列，并使用新的顺序索引

#reset_index()主要用于重置索引，在获得新的index，原来的index变成数据列，保留在数据框中，不想保留原来的index的话可以使用参数drop=True，默认False。

1.5.4 任务四：使用loc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

[30]:

midage.loc[[100,105,108],["Pclass","Sex","Name"]]

[30]:

	Pclass	Sex	Name
100	3	female	Petranec, Miss. Matilda
105	3	male	Mionoff, Mr. Stoytcho
108	3	male	Rekic, Mr. Tido

1.5.5 任务五：使用iloc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

[31]:

midage.iloc[[100,105,108],[2,3,4]]

[31]:

	Pclass	Name	Sex
149	2	Byles, Rev. Thomas Roussel Davids	male
160	3	Cribb, Mr. John Hatfield	male
163	3	Calic, Mr. Jovo	male

【思考】对比iloc和loc的异同

[32]:

复习：在前面我们已经学习了Pandas基础，知道利用Pandas读取csv数据的增删查改，今天我们要学习的就是探索性数据分析，主要介绍如何利用Pandas进行排序、算术计算以及计算描述函数describe()的使用。

1.6.6 任务六：分别看看泰坦尼克号数据集中票价、父母子女这列数据的基本统计数据，你能发现什么？

[16]:

'''

看看泰坦尼克号数据集中票价这列数据的基本统计数据

'''

text["票价"].describe()

[16]:

count    891.000000
mean      32.204208
std       49.693429
min        0.000000
25%        7.910400
50%       14.454200
75%       31.000000
max      512.329200
Name: 票价, dtype: float64

【思考】从上面数据我们可以看出，一共有891个票价数据，平均值约为：32.20，标准差约为49.69，说明票价波动特别大， 25%的人的票价是低于7.91的，50%的人的票价低于14.45，75%的人的票价低于31.00，票价最大值约为512.33，最小值为0。
当然，这只是我的想法，你还可以有更多想法，欢迎写在你的学习笔记中。

[17]:

'''

通过上面的例子，我们再看看泰坦尼克号数据集中父母子女个数这列数据的基本统计数据，然后可以说出你的想法

'''

text["父母子女个数"].describe()

[17]:

count    891.000000
mean       0.381594
std        0.806057
min        0.000000
25%        0.000000
50%        0.000000
75%        0.000000
max        6.000000
Name: 父母子女个数, dtype: float64

【思考】有更多想法，欢迎写在你的学习笔记中。

【总结】本节中我们通过Pandas的一些内置函数对数据进行了初步统计查看，这个过程最重要的不是大家得掌握这些函数，而是看懂从这些函数出来的数据，构建自己的数据分析思维，这也是第一章最重要的点，希望大家学完第一章能对数据有个基本认识，了解自己在做什么，为什么这么做，后面的章节我们将开始对数据进行清洗，进一步分析。

导入库
import pandas as pd

import numpy as py

路径
相对路径 "文件名"

绝对路径 "具体的位置"

琐碎
chunker 数据块

frame = pd.DataFrame() 创建一个DataFrame对象

frame.sort_values(by= ["要排列的列",,……],ascending=排序的方式 True升序或False降序)

frame.sort_index() 行索引升序排序

frame.sort_index(axis=1) 列索引升序排序

frame.describe()可以描述数据大小，平均值，标准差，最小值，25%的时候的值，50%的时候的值，75%的时候的值，最大值。

df = pd.read(路径)

df.info() 检查数据类型，大小

df.head() 显示前几行数据

df.tail() 显示后几行数据

df.columns 查看每列名称

df["列名","列名"……]查看这几列所有值

df.列名查看这一列所有值

del df["列名"] 删除这一列

df.drop(["列名","列名"……],axis=1) 隐藏这几列

df.isnull()判断数据是否为空，是返回True，反之False

df.to_csv("新路径")保存数据

加入encoding='GBK' 或者encoding = ’utf-8'，解决乱码问题

Patrickwtseeword

关注

28
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
Pandas笔记第二课堂学习upup

这门课程得主要目的是通过真实的数据，以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后，我们接下来我们要正式的开始数据分析的实战教学，完成kaggle上，实战数据分析全流程。
复制链接

扫一扫