dataframe上下行比较_2019-12-16(二)对DataFrame数据记录进行的各种选择前的初步和整体的了解...

'''

上期回顾:

利用Xlwings从Excel特定区域读入数据集到Pandas的DataFrame和Series。

本次:

我们将学习对DataFrame数据记录进行的各种选择!——选择前的初步和整体的了解

'''

'''

我们因为太长的列,显示会有些难看,所以我们修改了一下“特点”和“计算机水平”,然后在Excel 中将第9条记录和第10条记录“复制-粘贴”一次,形成重复的数据,再把第5条记录的“工龄”清除,然后导入Dataframe中

'''

##选中employee 所在的区域

range_employee=sht_base[25,1].api.currentregion

##命名区域

range_employee.name='range_employee'

##导入Dataframe

df_employee=sht_base['range_employee'].options(pd.DataFrame, header=1,index=True).value

#按F5运行程序,然后在IDE右下方的即时窗口In:后面输入:

print(df_employee)

#显示如下:

#第五条记录:张五的年龄因为是数值(int,float)的数据类型,所以显示为:NaN,而其他数据类型空值则显示为None

#*****

Ps:

小乐:哦我明白了!将数据从Excel引入到DataFrame,好比是相亲一样,Xlwings是媒人,她有许多办法和手段促成男女双方(Excel、DataFrame)见面、交流及至开花结果,成为相亲相爱的一家人,现在已经见面了,那就祝他们永结同心吧!

小欣:等等!他们还没有互相了解,怎么就永结同心了呢,这不会是闪婚吧!

小欣:至少也要让他们相互了解一下、交流一下吧!然后再进行选择,最终看是有情人终成眷属或者是等等再看,各回各家、各找各妈吧!

小乐:也是哦,那了解就了解详细一点吧!性格属相(dtypes) 、家庭住址户口信息(info())、亲友评价(describe())、身高体重(shape)、与众不同的地方(unique())... ...

小欣:丈母娘最关心什么啊?

小乐:当然是以上各项综合得分了,其中房子、车子、票子是硬指标!(index)在人群中一眼就能让你与众不同

小欣:人品能力... ...房子、车子、票子,最终要量化考核才行,不能泛泛而谈!

小乐:那你说,要怎么办?

小欣:做个KPI(columns),定性(str、bool...)定量(int、float)进行考核(values)!

小乐:好吧,那这次就先不定婚吧,先详细了解一下!

小欣:嗯嗯嗯,那还等什么!开始吧!

#*****

#查看一下各列的数据类型

df_employee.dtypes

#查看一下DataFrame的信息

df_employee.info()

#姓名列有12个 non-null (非空值),而“工龄”只有11个,“计算机水平”则更少了,只有4个

#查看一下统计信息

df_employee.describe()

'''

count  #数量

mean #均值

std #标准差

min  #最小值

25%  #下四分位

50% #中位数

75%  #上四分位

max  #最大值

percentiles,这个参数可以设定数值型特征的统计量,默认是[.25, .5, .75],也就是返回25%,50%,75%数据量时的数字,但是这个可以修改的

'''

#我们只看到了数值类型的统计信息,如果要看到其他类型的则要加上参数 include=['O']

'''

可以看出它直接给出了非空数量 count;唯一值的种类 unique ,姓名虽然有12个,但有连词工和张9是重复的,所以姓名唯一值为10个;出现最多的类型 top 和出现次数 freq,简直是贴心。这对以后提特征绝对是个便利。

'''

#查看数据表的维度

df_employee.shape

#查看“特点”列中的唯一值

df_employee['特点'].unique()

#或者

df_employee.特点.unique()

#查看数据表的值

df_employee.values

#查看列名称

df_employee.columns

#查看索引

df_employee.index

#转换数据类型,从float转成int

#以上只能显示的时候从float 变成 int,如果要改变原数据集的值,则要这样做

#或者直接这样做

#或者是,既有数字,又有字符的

这时的index数据类型变成object

#查看前6行数据

df_employee.head(6)

#查看前10行数据

df_employee.head

df_employee.head(10)

#查看前5行数据

df_employee.head()

#查看最后6行,tail用法和head一样

df_employee.tail(6)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值