pandas(1)Series

pandas Series

讲pandas的人好多啊。

所以我应该会强调重点,并且侧重实践。琐碎的细节交给其他的小伙伴吧

大家可以用jupter来实操。

本节阅读需10min,实践需10min。



前言

pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

numpy,pandas是为了替换MATLAB的基础数据。

pandas侧重在二维数据的处理。也就是Excel数据或者数据库数据。


一、pandas基础

pandas和numpy一样作为python数据分析以及高大上的人工智能的基础。
pandas是基于numpy的,但是又不止于numpy。添加了索引和更全面的统计工具库。
pandas主要处理二维数据,numpy主要处理一维数据,就正常使用而言。人工智能肯定都是高维运算。

安装

pip install pandas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

数据处理三剑客。

二、Series的声明

pandas.Series( data, index, dtype, name, copy)

name:设置名称。意义不大。

Series也是用来存储一维数据的数据结构。和ndarray不同之处在于。
Series增加了一层关系,或者称为意义的东西。

import pandas as pd
s = pd.Series(data, index=index)

index一般而言是有意义的。比如如果data是成绩,那么index可以是学生的姓名。

Here, data can be many different things:

a Python dict

an ndarray

a scalar value (like 5)

也就是说可以这么初始化。

dict很容易理解,都是存储的关系嘛。

d = {"a": 0.0, "b": 1.0, "c": 2.0}

pd.Series(d)
Out[10]: 
a    0.0
b    1.0
c    2.0
dtype: float64

最主要的方式还是ndarray,
index一般是有意义的字符串。

s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
直接存储常量列表,会自动安排index。自然数编码
pd.Series(np.random.randn(5))
# 
0   -0.173215
1    0.119209
2   -1.044236
3   -0.861849
4   -2.104569
dtype: float64

三、Series的常见操作

Series的操作其实和ndarray高度相似。
重要程度反而不如ndarray。

s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
s.index # 获得索引列表,index对象
s.dtype # 类型
s[0] # 索引
s[:3] # 切片
s[s > s.median()] # 筛选器
s[[4, 3, 1]] # 列表索引
np.exp(s) # 可以作为ndarray计算,四则运算自然也是可以的

s.to_numpy() # 返回ndarray
s["a"] # index索引
s.get("f", np.nan) # 如果没有填充缺省值
s[1:] + s[:-1] # 根据index对齐运算,取并集,并填充 np.nan
a         NaN
b   -0.565727
c   -3.018117
d   -2.271265
e         NaN
dtype: float64

s.get(“f”, np.nan) # 相当于简单的异常处理


总结

本节介绍了pandas的基础数据结构Series。
需要和numpy相互比较鉴别。

我们并不会单独的使用Series进行计算的。。。那些东西numpy足以胜任。
Series一般也不是信息的入口,现实中没多少数据是孤立的,只是作为中间的存储工具

Pandas和Excel、SQL的功能是类似的只是处理的层次不同。
Excel是在用户层,pandas是在后端,sql则是在数据层。

官网教程,但是很长

Series是DataFrame的基础。
下一章讲解DataFrame
一键三连。盆友们!!!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

演技拉满的白马

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值