从零开始学Python【6】--pandas(数据框部分01)

作为从事数据相关工作的我们,平时接触的更多的是一张有板有眼的数据表格,在这里我们就叫作数据框。在Python中可以通过pandas模块的DataFrame函数构造数据框,而R语言则是data.frame创建数据框。接下来我们将对比Python和R语言如下几个方面的应用:

1、数据框的构造

在Python中,可以借助于列表、元组、字典进行手工构建数据框,我们用例子说明:

通过列表创建数据框

0?wx_fmt=png

发现,这样创建数据框的话,没有变量名称。该如何创建的时候加上列名称呢?

0?wx_fmt=png

是的,可以运用DataFrame函数中的columns参数给数据框的每列添加名称,如果你需要给行加上索引名称,你可以使用index参数。


通过字典创建数据框

0?wx_fmt=png

发现输出结果中列名称顺序与构造时的数据不一致,这是因为字典并非是一种序列,而是一种特殊的键值对关系的对象。如果你需要按照指定的列顺序排列,仍然可以通过columns参数实现。

0?wx_fmt=png


在R语言中,构造数据框的方法就相对单一一些了,只需要往data.frame函数传入向量对象即可。

0?wx_fmt=png


2、数据的读入

在更多的场景下我们是读取外部数据,然后基于外部数据进行数据分析、可视化、数据挖掘等研究。这里跟大家介绍一下文本文件、电子表格和MySQL数据库的读取。

文本文件的读取

在pandas模块中有read_table和read_csv两个函数读取常见的文本文件,这里就以txt和csv文件为例,对比Python和R语言的读取。

0?wx_fmt=png

read_table和read_csv两个函数都可以读文本文件数据,区别在于默认的sep参数不一致,read_table默认以制表符Tab键为字段间的间隔符,而read_csv默认以逗号为字段间的间隔符。


由于原始数据文件books.txt没有字段名称,故设置header=None,并用names参数给表字段加上名称,usecols则是设置读取原始数据的哪些列。下面再来看看使用read_table函数读取csv文件。

0?wx_fmt=png


在R语言中,也有两个常用的函数read.table和read.csv函数读取txt和csv文件,不妨就用read.csv函数读取上面的co2.csv数据集:

0?wx_fmt=png


电子表格的读取

pandas模块中read_excel函数可以非常方便的读取外部的xls和xlsx电子表格:

0?wx_fmt=png

在R语言中,基础包就无法读取电子表格数据了,这里强烈推荐R的用户使用readxl包读取Excel文件。但需要注意的一点是,数据的路径一定不能包含中文,连文件名称也不可以。

0?wx_fmt=png


MySQL数据库数据的读取

使用Python读取MySQL数据库,还需要结合pymysql模块一起使用。这里我们就在本地的MySQL创建一个数据集,并用Python和R实现数据库数据的读取。

在MySQL中创建数据

0?wx_fmt=png


运用Python与MySQL创建连接,并读取数据;

0?wx_fmt=png


运用R与MySQL创建连接,并读取数据(需要下载RMySQL包);

0?wx_fmt=png


3、数据的概览信息

外部数据读取到Python或R语言中,往往对数据需要做一些大概的了解,如最小值、最大值、平均值、各变量都是哪些数据类型、数据量如何等。我们来看看这些问题是如何解决的:

0?wx_fmt=png

shape属性和columns属性返回数据集的行列数及变量名;


0?wx_fmt=png

0?wx_fmt=png

describe属性可以对数值型变量(include=['number'])和离散型变量(include=['object'])进行描述性统计;


0?wx_fmt=png

info属性则对数据集的变量类型进行简单的描述。


在R语言中,上面关于数据的概览信息,可以对应到如下的代码:

0?wx_fmt=png

dim函数和names函数


0?wx_fmt=png

summary函数进行统计描述;


0?wx_fmt=png

str函数对数据集的变量类型进行描述。


今天我们的内容就介绍到这边,欢迎大家拍砖。下期我们来聊聊pandas模块的数据框DataFrame第二部分。主要涉及变量、观测的筛选;变量的重命名;数据类型的变换;排序和数据集的去重。


往期从零开始学Python系列:

从零开始学Python【4】--pandas(序列部分)

从零开始学Python【4】--numpy

从零开始学Python【3】--控制流与自定义函数

从零开始学Python--数值计算及正则表达式

从零开始学Python--数据类型及结构


每天进步一点点2015

学习与分享,取长补短,关注小号!

640?wx_fmt=jpeg
长按识别二维码 马上关注



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sim1480

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值