python如何分析数据结构_Python 数据分析(一):常见数据结构的使用

如何解决开发环境

因为用 Python 做数据分析时需要用到大量的科学工具包,所以这里推荐使用 Anaconda ,它整合了很多科学工具,避免了我们自己一个个下载各种科学工具的麻烦。可以在这里下载:Home 。安装好后 Anaconda 自带了一个 IDE 叫 Spyder,你可以直接用这个编写代码,你也可以和我一样使用 PyCharm 。

Python 中有一个很强大的数据分析包,叫 pandas ( Python Data Analysis Library ),它是基于 NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。

在 Pandas 中有两种常见的数据结构:Series 和 DataFrame 。

学习这些数据结构可以从这几个方面入手:

1,概念:什么是数据结构;

2,定义:如何定义数据结构;

3,限制:使用这种数据结构有什么限制;

4,访问:访问这种数据结构的方式是什么样的;

5,修改:如何对这种数据结构进行增删改;

一、首先看什么是 Series

Series 是用于存储一行或者一列的数据,以及与之相关的索引的集合。

打开 Jupyter Notebook , 首先需要从 pandas 中导入 Series 包,如下所示:

通过默认的索引和指定的索引来获取 Series 中的数据,注意默认索引从 0 开始:

因为 x 的长度是3 ,所以当你用 x[3] 来访问第四个元素的时候,编辑器会报错:index out of bounds .

注意往 Series 中追加数据的时候,不能用如下的方式,因为 Series 的 append 方法只能用来往一个 Series 中追加一个新的 Series:

下面的使用才是正确的,创建一个新的 Series y,然后向 x 追加 y:

但是仍然需要注意的是,append 的方法并不会改变 x 的值,append 过后生产了一个新的 Series,如果需要改变 x 的值,我们需要将 append 后的 Series 重新赋值给 x, 如下所示:

我们可以通过以下方式来判断 Series 是否包含某个值,注意第一种用法是错误的,我们需要使用 '2' in x.values 来判断:

接下来我们看下 Series 的切片,切片的使用如下,x[1:3] 表示将索引 1 到 3 上的数据切出来,注意不包括索引 3 上的值:

如果我们需要随机抽样,可以指定索引切出所要的数据,比如这样,我们切出了索引 0 和 2上的数据 :

下面看看怎么根据索引值来删除数据:

我们还能根据位置来删除,比如:

二、再来看看 DataFrame

DataFrame 是用于存储多行和多列的数据集合,可以理解成 Excel 表格,下面来看看使用方法。

同样的,先导入相应的包。如果不指定索引,创建 DataFrame 的时候就会默认从 0 开始,0,1,2,3...依次类推。

当然,我们也可以为 DataFrame 指定索引,比如下面这样:

按列访问:

按行访问,注意这样的写法是获取第二行的数据,不能获取第三行的数据:

按行索引访问,使用 loc 方法:

按行列号访问:

精准定位:

修改列名:

修改行索引:

删除数据,通过参数 axis 来确定是删除行还是删除列,axis = 0 表示删除行,1 表示删除列,如过不指定 axis 的值,则默认是 0 。演示如下:

增加行的操作:

增加列的操作:

以上就是 Pandas 中常见的数据结构的操作,下一章节涉及到向量计算。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值