跟着Datawhale动手学数据分析

最新推荐文章于 2024-08-02 22:56:11 发布

lugan5566

最新推荐文章于 2024-08-02 22:56:11 发布

阅读量356

点赞数

文章标签：数据结构 python

本文链接：https://blog.csdn.net/lugan5566/article/details/108093967

版权

跟着Datawhale动手学数据分析

环境搭建

由于之前用过Python处理科学计算，所以这次就直接用之前安装过的Anaconda了，在学习群里第一次学到Windows系统下在文件目录中用“shift”+“ctrl”+“右键”打开“Power shell”，再打开jupyter notebook。之前都是在默认路径下载入ipynb文件。。。

数据载入

本次学习的数据是泰坦尼克号的乘员信息，来源于kaggle，上面有许多用于机器学习的数据，看来是个值得收藏的宝库。

接下来是载入数据。

#相对路径
df = pd.read_csv('train.csv')
#绝对路径
df = pd.read_csv('D:\\files\\Python\\hands-on-data-analysis-master\\第一单元项目集合\\train.csv')

值得注意的是，在使用绝对路径访问时，最好用"\"，我开始把文件保存在桌面，载入时提示“\u”被识别错误。

划重点

“加载的数据是所有工作的第一步，我们的工作会接触到不同的数据格式（eg:.csv;.tsv;.xlsx）,但是加载的方法和思路都是一样的，在以后工作和做项目的过程中，遇到之前没有碰到的问题，要多多查资料吗，使用googel，了解业务逻辑，明白输入和输出是什么。”

pandas库基本操作

pandas库本身内容很丰富，简单介绍下用到的一些功能。

DataFrame和Series是最常用的两种数据结构。

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。

逐块读入

#每一百行
chunker = pd.read_csv('train.csv',chunksize=100)

查看基本信息

df.info()

查看数据

#前10行
df.head(10)
#后15行
df.tail(10)

以"Age"为条件，将年龄在10岁以上和50岁以下的乘客信息显示出来，并将这个数据命名为midage。

midge = df[(df['Age']>10) & (df['Age']<50)]
midge

使用loc和iloc方法可以显示指定行，但loc根据index来索引，而iloc是根据行号来索引。

#使用loc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来
midge.loc[[100,105,108],['Pclass','Name','Sex']]
#使用iloc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来
midge.iloc[[100,105,108],[2,3,4]]

排序

#行索引升序排序
data.sort_index()
#让列索引升序排序
data.sort_index(axis=1)
#让列索引降序排序
data.sort_index(axis=1,ascending=False)

使用Pandas describe()函数查看数据基本统计信息

df.describe()

总结

第一章的三节内容比较基础，展示了python中数据分析的一些基本功能。回到数据分析，工具是其次，思维最重要：怎么收集到需要的数据，如何对自己的数据进行分析，得到什么的结果，已经怎么验证结果的可靠性。
后面的章节将开始对数据进行清洗，学习如何进一步分析。

lugan5566

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
跟着Datawhale动手学数据分析

跟着Datawhale动手学数据分析环境搭建由于之前用过Python处理科学计算，所以这次就直接用之前安装过的Anaconda了，在学习群里第一次学到Windows系统下在文件目录中用“shift”+“ctrl”+“右键”打开“Power shell”，再打开jupyter notebook。之前都是在默认路径下载入ipynb文件。。。数据载入本次学习的数据是泰坦尼克号的乘员信息，来源于kaggle，上面有许多用于机器学习的数据，看来是个值得收藏的宝库。接下来是载入数据。#相对路径df = p
复制链接

扫一扫