十八、数据预处理(二)

四、数据类型转换

1、数据类型

(1)Excel实现

在Excel中常用的数据类型就是在菜单栏中数字选项下面的几种,也可以选择其他数据格式。在Excel中只要选中某一列就可以在菜单栏看到这一列的数据类型。

(2)Python实现

Pandas不像Excel分得那么详细,它主要有6种数据类型,如下表所示:

类型     说明
int整型数,即整数
float 浮点数,即含有小数点的数
objectPython对象类型,用O表示
string_字符串类型,经常用S表示吗,S10表示长度为10的字符串
unicode_固定长度的unicode类型,即字符串定义方式一样
datetime64[ns]表示时间格式

在Python中,不仅可以用info()方法获取每一列的数据类型,还可以通过dtype方法来获取某一列的数据类型。

2、类型转换

(1)Excel实现

在Excel中如果想要更改某一列的数据类型,只要选中这一列,然后在数字菜单栏中通过下拉菜单选择你要转换的目标类型即可实现。

(2)Python实现

在Python中,利用astype()方法对数据类型进行转换,astype后面的括号里指明要转换的目标类型即可。

五、索引设置

索引是查找数据的依据,设置索引的目的是便于查找数据。

1、为无索引表添加索引

(1)Excel实现

在Excel中,一般都是有索引的,如果没索引数据看起来就会很乱,当然也会有例外,数据表就是没有索引的,这个时候插入一行一列就是为表添加索引。

(2)Python实现

在Python中,如果表没有索引,会默认用从0开始的自然数做索引。

通过给表的columns参数传入列索引值,index参数传入行索引值达到为索引表添加索引的目的。

2、重新设置索引

重新设置索引,一般指行索引的设置。有的表虽然有索引,但不是我们想要的索引。

(1)Excel实现

在Excel中重新设置行索引比较简单,直接把这一列拖到第一列的位置即可。

(2)Python实现

在Python中可以利用set_index()方法重新设置索引列,在set_index()里指明要用作行索引的列的名称即可。

在重新设置索引时,还可以给set_index()方法传入两个或多个列名,我们把这种一个表中用多列来做索引的方式成为层次化索引,层次化索引一般用在某一列中含有多个重复值的情况下。

3、重命名索引

重命名索引是针对现有索引名进行修改的,就是改字段名。

(1)Excel实现

在Excel中重新命名索引比较简单,即使直接修改字段名。

(2)Python实现

在Python中重命名索引,利用的是rename()方法,在rename后的括号里指明要修改的行索引及列索引名。

4、重置索引

重新索引主要用在层次化索引表中,重置索引是将索引列当做一个columns进行返回。

(1)Excel实现

在Excel中,我们要进行这种转换,直接通过复制、粘贴、删除等功能就可以实现。

(2)Python实现

在Python利用的是reset_index()方法,reset_ndex()方法常用的参数如下:

reset_index(level=None,drop=False,inplace=False)

level参数用来指定要将层次化索引的第几级别转化为columns,第一个索引为0级,第二个索引为1级,默认为全部索引,即默认把索引全部转化为columns。

drop参数用来指定是否将原索引删掉,即不作为一个新的columns,默认为FALSE,即不删除原索引。

inplace参数用来指定是否修改原数据表。

reset_index()方法常用于数据分组、数据透视表中。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值