dataframe上下行比较_2019-12-16(二)对DataFrame数据记录进行的各种选择前的初步和整体的了解...

最新推荐文章于 2022-10-15 22:20:17 发布

weixin_39628864

最新推荐文章于 2022-10-15 22:20:17 发布

阅读量327

点赞数

文章标签： dataframe上下行比较

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39628864/article/details/112818202

版权

'''

上期回顾：

利用Xlwings从Excel特定区域读入数据集到Pandas的DataFrame和Series。

本次：

我们将学习对DataFrame数据记录进行的各种选择！——选择前的初步和整体的了解

'''

'''

我们因为太长的列，显示会有些难看，所以我们修改了一下“特点”和“计算机水平”，然后在Excel 中将第9条记录和第10条记录“复制-粘贴”一次，形成重复的数据，再把第5条记录的“工龄”清除，然后导入Dataframe中

'''

##选中employee 所在的区域

range_employee=sht_base[25,1].api.currentregion

##命名区域

range_employee.name='range_employee'

##导入Dataframe

df_employee=sht_base['range_employee'].options(pd.DataFrame, header=1,index=True).value

#按F5运行程序，然后在IDE右下方的即时窗口In：后面输入：

print(df_employee)

#显示如下：

#第五条记录:张五的年龄因为是数值(int,float)的数据类型，所以显示为：NaN，而其他数据类型空值则显示为None

#*****

Ps：

小乐：哦我明白了！将数据从Excel引入到DataFrame,好比是相亲一样，Xlwings是媒人，她有许多办法和手段促成男女双方(Excel、DataFrame)见面、交流及至开花结果，成为相亲相爱的一家人，现在已经见面了，那就祝他们永结同心吧！

小欣：等等！他们还没有互相了解，怎么就永结同心了呢，这不会是闪婚吧！

小欣：至少也要让他们相互了解一下、交流一下吧！然后再进行选择，最终看是有情人终成眷属或者是等等再看，各回各家、各找各妈吧！

小乐：也是哦，那了解就了解详细一点吧！性格属相(dtypes) 、家庭住址户口信息(info())、亲友评价(describe())、身高体重(shape)、与众不同的地方(unique())... ...

小欣：丈母娘最关心什么啊？

小乐：当然是以上各项综合得分了，其中房子、车子、票子是硬指标！(index)在人群中一眼就能让你与众不同

小欣：人品能力... ...房子、车子、票子，最终要量化考核才行，不能泛泛而谈！

小乐：那你说，要怎么办?

小欣：做个KPI(columns),定性(str、bool...)定量(int、float)进行考核(values)!

小乐：好吧，那这次就先不定婚吧，先详细了解一下！

小欣：嗯嗯嗯，那还等什么！开始吧！

#*****

#查看一下各列的数据类型

df_employee.dtypes

#查看一下DataFrame的信息

df_employee.info()

#姓名列有12个 non-null (非空值)，而“工龄”只有11个，“计算机水平”则更少了，只有4个

#查看一下统计信息

df_employee.describe()

'''

count #数量

mean #均值

std #标准差

min #最小值

25% #下四分位

50% #中位数

75% #上四分位

max #最大值

percentiles,这个参数可以设定数值型特征的统计量，默认是[.25, .5, .75],也就是返回25%，50%，75%数据量时的数字，但是这个可以修改的

'''

#我们只看到了数值类型的统计信息，如果要看到其他类型的则要加上参数 include=['O']

'''

可以看出它直接给出了非空数量 count；唯一值的种类 unique ，姓名虽然有12个，但有连词工和张9是重复的，所以姓名唯一值为10个；出现最多的类型 top 和出现次数 freq，简直是贴心。这对以后提特征绝对是个便利。

'''

#查看数据表的维度

df_employee.shape

#查看“特点”列中的唯一值

df_employee['特点'].unique()

#或者

df_employee.特点.unique()

#查看数据表的值

df_employee.values

#查看列名称

df_employee.columns

#查看索引

df_employee.index

#转换数据类型，从float转成int

#以上只能显示的时候从float 变成 int,如果要改变原数据集的值，则要这样做

#或者直接这样做

#或者是，既有数字，又有字符的

这时的index数据类型变成object

#查看前6行数据

df_employee.head(6)

#查看前10行数据

df_employee.head

或

df_employee.head(10)

#查看前5行数据

df_employee.head()

#查看最后6行,tail用法和head一样

df_employee.tail(6)

weixin_39628864

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
dataframe上下行比较_2019-12-16(二)对DataFrame数据记录进行的各种选择前的初步和整体的了解...

'''上期回顾：利用Xlwings从Excel特定区域读入数据集到Pandas的DataFrame和Series。本次：我们将学习对DataFrame数据记录进行的各种选择！——选择前的初步和整体的了解''''''我们因为太长的列，显示会有些难看，所以我们修改了一下“特点”和“计算机水平”，然后在Excel 中将第9条记录和第10条记录“复制-粘贴”一次，形成重复的数据，再把第5条记录的“工龄”清...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。