pandas的一些基本操作

写代码的大学生

于 2024-07-21 11:49:55 发布

阅读量500

点赞数 6

文章标签： pandas

本文链接：https://blog.csdn.net/2303_82176667/article/details/140585804

版权

Pandas 是一个开源的数据分析和操作库，它是 Python 编程语言的一个扩展。Pandas 提供了快速、灵活和表达能力强的数据结构，旨在使数据清洗和分析工作变得更加简单易行。

1.为什么要学习pandas?

numpy已经可以帮助我们进行数据的处理了，那么学习pandas的目的是什么呢？
- numpy能够帮助我们处理的是数值型的数据，当然在数据分析中除了数值型的数据还有好多其他类型的数据（字符串，时间序列），那么pandas就可以帮我们很好的处理除了数值型的其他数据！

from pandas import Series
s = Series([1,2,3,'four'])
s

也可以和numpy模块一起创建

import numpy as np
s = Series(data=np.random.randint(1,6,size=(5)))
s

s = Series(data=np.random.randint(1,6,size=(5)),index=['a','b','c','d','e'])
s

输出结果为：

a    3
b    2
c    2
d    4
e    5
dtype: int32

那么为什么需要有显示索引？
显示索引可以增强Series的可读性

dic = {
    '语文':100,
    '数序':80,
    '英语':60
}
s = Series(data=dic)
s

输出结果为

语文    100
数序     80
英语     60
dtype: int64

还是沿用2.2的代码

s[0:2]

结果为：

语文    100
数序     80
dtype: int64

s.shape
s.size
s.index #返回索引
s.values #返回值
s.dtype #元素的类型

s = Series(data=np.random.randint(1,100,size=(9)))
s
s.head(3)
s.tail(3)

s.unique() #去重

s.isnull() #用于判断每一个元素是否为空，为空返回True，否则返回False

DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
- 行索引：index
- 列索引：columns
- 值：values

from pandas import DataFrame
d = DataFrame(data=np.random.randint(1,10,size=(3,4)))
d

dic = {
    'name':['zhangsan','lisi','wangwu'],
    'salary':[100,200,300]
}
d = DataFrame(data=dic,index=['a','b','c'])
d

df = DataFrame(data=np.random.randint(1,100,size=(8,4)),columns=['a','b','c','d'])
df
df.loc[0]
df.loc[0:3]

关注