数据分析之pandas_20题
系列文章
数据分析之pandas_20题_6-10
数据分析之pandas_20题_11-15
数据分析之pandas_20题_16-20
写在前面的话
这边笔记主要记录一些在数据分析过程中使用到的pandas模块的方法,希望可以帮到需要的人。
pandas 20题并不是简单的20个题目哟,是20中不同的需求。
pandas是什么?
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。常用语数据分析处理
引入库
代码如下(示例):
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
1.创建DataFrame
DataFrame实质上是由多个具有相同索引的Series合并而成的,所以直接从DataFrame开始,其中涉及到的Series方法也会做说明。
1.以字典的方式创建
data = {
"name":['李梅', '林辉', '田平', '郑凤英', '杨成'],
"age":[13, 18, 15, 15, 19]
}
df = pd.DataFrame(data)
结果
2.以numpy二维数组创建
import numpy as np
data = np.random.randint(10,50,(10,5))
df = pd.DataFrame(data,columns=['A','B','C','D','E'])
结果
2. 数据集基本信息查看
当我们拿到一个数据集时需要基础信息,可以这样
df.info()
结果
可以看到这个数据及的基本信息,例如:数据集有2列,5行,非缺失值数量,每一列的类型,以及内存占用情况。
当数据集中的特征类型是数值类型时,我们往往想了解数据集的数据分布情况
df.describe()
结果
此时会获取到数据集的四分位,记录个数,平均值,标准差等等数据,方便做判断,也可以作为后续处理数据的依据
为进一步解释基本信息,需要造假数据,无需过多关注
# 导包
from faker import Faker
f = Faker('ZH-cn')
# 创建字典
data = {
}
data['name']