![4042e4871acf91934ac359cbfdabc636.gif](https://img-blog.csdnimg.cn/img_convert/4042e4871acf91934ac359cbfdabc636.gif)
从今天开始连载数据分析利器 pandas 的系列文章,推荐 Pycharm 集成 Python3.6+;无论你是零基础小白,还是已经上手过 pandas,你都可以在本次系列中学到一些干货。
摘自百度百科:pandas 是基于 numpy 的一种工具,该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas 提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使 Python 成为强大而高效的数据分析环境的重要因素之一。
虽然 pandas 基于 numpy,但是在开始 pandas 系列文章前,我并不打算先介绍 numpy 的具体使用,因为 numpy 着重解决的是多维列表或矩阵的数学运算问题,pandas 设计之初就是为了解决实际问题,我认为可以直接上手 pandas,在系列教程中,我会尽量预设读者朋友们没有 numpy 基础,或者说,需要 numpy 知识的地方,我会直接带着说出,我会尽量以 最简洁的文字最少的预备知识,讲完整个 pandas 系列。
作为系列的开篇,本文的中心任务是让每一个读者都熟悉 pandas 中的一种数据结构的概念和基本操作,它就是 Series 。
Series 是一种类似于 一维 数组的对象,由一组数据(数据类型可以是整数、浮点数、字符串和其他 Python 对象)和与之同长度的索引(或称标签)组成。举个例子:
import pandas as pd# 标签 1 索引 数据'a', 标签 2 索引数据 'b'...s = pd.Series(data=['a','b','c','d'],index=[1,2,3,4])print(s)
创建 Series 的三种方式
对于构造函数 pd.Series()
,我们最常关心的三个参数是 数据 data、索引 index 和 数据类型dtype,分别可以通过 Series 的 values、i