基础知识在数据分析中就像是九阳神功,熟练的掌握,加以运用,就可以练就深厚的内力,成为绝顶高手自然不在话下!
为了更好地学习数据分析,我对于数据分析中pandas这一模块里面常用的函数进行了总结。整篇总结,在详尽且通俗易懂的基础上,我力求使其有很强的条理性和逻辑性,所以制作了思维导图,对于每一个值得深究的函数用法,我也会附上官方链接,方便大家继续深入学习。
文章中的所有代码都会有讲解和注释,绝大部分也都会配有运行结果,这样的话,整篇总结篇幅量自然不小,所以我分成了上下两篇,这里是上篇,下篇在次条。
1. 导入模块
import pandas as pd # 这里用到的是pandas和numpy两个模块
import numpy as np
2. 创建数据集并读取
2.1 创建数据集
我构造了一个超市购物的数据集,该数据集属性包括:订单ID号(id)、订单日期(date)、消费金额(money)、订单商品(product)、商品类别(department)、商品产地(origin)。
# 列表和字典均可传入DataFrame,我这里用的是字典传入:
data=pd.DataFrame({
"id":np.arange(101,111), # np.arange会自动输出范围内的数据,这里会输出101~110的id号。
"date":pd.date_range(start="20200310",periods=10), # 输出日期数据,设置周期为10,注意这里的周期数应该与数据条数相等。
"money":[5,4,65,-10,15,20,35,16,6,20], # 设置一个-10的坑,下面会填(好惨,自己给自己挖坑,幸亏不准备跳~)
"product":['苏打水','可乐','牛肉干','老干妈','菠萝','冰激凌','洗面奶','洋葱','牙膏','薯片'],
"department":['饮料','饮料','零食','调味品','水果',np.nan,'日用品','蔬菜','日用品','零食'], # 再设置一个空值的坑
"origin":['China',' China','America','China',&#