Python变量类型的转换以及建立索引

01_6

已于 2024-04-23 21:59:46 修改

阅读量780

点赞数 21

分类专栏： pandas 文章标签： python 开发语言 pandas 数据分析

于 2024-04-22 23:22:11 首次发布

本文链接：https://blog.csdn.net/2301_77444219/article/details/138094786

版权

pandas 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

导入csv文件

导入csv文件时除了指明文件路径，还需要设置编码格式。Python 中用得比较多的两种编码格式是UTF-8和gbk，默认编码格式是UTF 8。

我们要根据导入文件本身的编码格式进行设置，通过设置参数 encoding来设置导入的编码格式。

【示例】导入.csv文件，文件编码格式是gbk。

pd.read_csv('stu_data.csv',encoding='gbk')

用分隔符号进行分隔。常用的分隔符除了逗号、空格，还有制表符（\t）。

【示例】导入.csv文件，指明分隔符

df=pd.read_csv("stu_data.csv",encoding='gbk',sep =' ')
pd.read_csv('stu_data.csv',encoding='gbk',sep =',')

变量类型的转换

Pandas 支持的数据类型

float
int
string
bool
datetime64[nsr] datetime64[nsr,tz] timedelta[ns]
category
object

df.dtypes：查看各列的数据类型

在不同数据类型间转换：df.astype(

dtype ：指定希望转换的数据类型，可以使用 numpy 或者 python 中的数据类型： int/float/bool/str

copy = True ：是否生成新的副本，而不是替换原数据框

errors = 'raise' ：转换出错时是否抛出错误， raise/ ignore )

示例代码：

import numpy as np
import pandas as pd
name=['张三','李四','王五','赵六']
age=['29','16','23','30']
df = pd.DataFrame({'name':name,'age':age})
print(df)
print(df.dtypes)#用df.dtypes查看各列的数据类型

结果演示：

建立索引

所有的数据框默认都已经使用从 0 开始的自然数索引。下面介绍的都是自定义索引。

新建数据框时建立索引

df2 = pd.DataFrame( {'varl' : 1.0, ' var2' : [1,2,3,4], 'var3' : ['test', 'python','test', 'hello'] , 'var4' : 'cons'} , index = [0,1,2,3])

读入数据时建立索引

指定某列为索引列

df.set_index(

keys ：被指定为索引的列名，复合索引用 list格式提供

drop = True ：建立索引后是否删除该列

append = False ：是否在原索引基础上添加索引，默认是直接替换原索引

inplace = False ：是否直接修改原数据框 )

df_new = df.set_index (keys=['学号'，'性别'],drop = False) 
df_new = df.set_index (keys='学号', append=True, drop=False)

将索引还原变量列

df.reset_index(

drop = False :是否将原索引直接删除，而不是还原为变量列

inplace = False :是否直接修改原数据框 )

xue

01_6

关注

21
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Python变量类型的转换以及建立索引

dtype ：指定希望转换的数据类型，可以使用 numpy 或者 python 中的数据类型： int/float/bool/str。我们要根据导入文件本身的编码格式进行设置，通过设置参数 encoding来设置导入的编码格式。append = False ：是否在原索引基础上添加索引，默认是直接替换原索引。Python 中用得比较多的两种编码格式是UTF-8和gbk，默认编码格式是UTF 8。copy = True ：是否生成新的副本，而不是替换原数据框。【示例】导入.csv文件，文件编码格式是gbk。
复制链接

扫一扫