【数据挖掘重要笔记day12】DataFrame的基本概念+DataFrame的索引操作+在pandas中的运算+dataframe的增加和修改+查询和删除

本文详细介绍了DataFrame的创建,包括通过字典创建及属性介绍。探讨了DataFrame的索引操作,如列索引、行索引和元素索引,并展示了错误的行索引演示。进一步讲解了DataFrame的运算,包括与其他DataFrame和Series的运算规则。最后,提到了DataFrame的插入、查询和删除操作,提供了多种实用方法。
摘要由CSDN通过智能技术生成

2、DataFrame

DataFrame是一个【表格型】的数据结构,可以看做是【由Series组成的字典】(共用同一个索引)。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。

  • 行索引:index
  • 列索引:columns
  • 值:values(numpy的二维数组)

我们的 训练集(一些二维的数据)都是二维的,那么Series满足不了这个条件,xy轴,轴上的一点(0,0)

1)DataFrame的创建

最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称,以字典的值(一个数组)作为每一列。

此外,DataFrame会自动加上每一行的索引(和Series一样)。

同Series一样,若传入的列与字典的键不匹配,则相应的值为NaN。

data = pd.DataFrame(data=np.random.randint(1,20,(5,4))
             ,index=['红浪漫','海螺哥','澡王','大哥','三点哥']
             ,columns=list('ABCD'))

DataFrame属性:values、columns、index、shape、ndim、dtypes

data.ndim,data.shape
#(2, (5, 4))
data.dtypes
#A    int32
#B    int32
#C    int32
#D    int32
#dtype: object
#行索引
data.index
#Index(['红浪漫', '海螺哥', '澡王', '大哥', '三点哥'], dtype='object')
#列索引
data.columns
#Index(['A', 'B', 'C', 'D'], dtype='object')
data.values
#array([[12, 15, 17,  8],
#       [10, 14,  4,  2],
#       [12, 19, 13,  6],
#       [16, 12,  5,  8],
#       [18, 14,  3, 16]])
#检查数据大小
data.info()
#<class 'pandas.core.frame.DataFrame'>
#Index: 5 entries, 红浪漫 to 三点哥
#Data columns (total 4 columns):
#A    5 non-null int32
#B    5 non-null int32
#C    5 non-null int32
#D    5 non-null int32
#dtypes: int32(4)
#memory usage: 280.0+ bytes

2)DataFrame的索引

(1) 对列进行索引

  • 通过类似字典的方式
  • 通过属性的方式
    可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引,且name属性也已经设置好了,就是相应的列名。
data

data['A']
#红浪漫    12
#海螺哥    10
#澡王     12
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值