没有为类型 object 定义方法 read()_pandas 数据类型转换

最新推荐文章于 2024-03-31 18:06:36 发布

未眠-1031

最新推荐文章于 2024-03-31 18:06:36 发布

阅读量689

点赞数

文章标签：没有为类型 object 定义方法 read()

本文链接：https://blog.csdn.net/weixin_35395422/article/details/113366237

版权

在pandas数据处理中，数据类型问题至关重要。文章介绍了astype()函数用于转换数据类型，例如将object类型转换为int。讨论了astype在处理纯数字字符串时的有效性，以及在遇到非数字字符串时自定义函数和内置函数的应用，以解决数据清洗问题。

摘要由CSDN通过智能技术生成

数据处理过程的数据类型

当利用pandas进行数据处理的时候，经常会遇到数据类型的问题，当拿到数据的时候，首先需要确定拿到的是正确类型的数据，一般通过数据类型的转化，这篇文章就介绍pandas里面的数据类型（data types也就是常用的dtyps），以及pandas与numpy之间的数据对应关系。

主要介绍object，int64，float64，datetime64，bool等几种类型，category与timedelta两种类型会单独的在其他文章中进行介绍。当然本文中也会涉及简单的介绍。

数据类型的问题一般都是出了问题之后才会发现的，所以有了一些经验之后就会拿到数据之后，就直接看数据类型，是否与自己想要处理的数据格式一致，这样可以从一开始避免一些尴尬的问题出现。那么我们以一个简单的例子，利用jupyter notebook进行一个数据类型的介绍。

####按照惯例导入两个常用的数据处理的包，numpy与pandas
import numpy as np
import pandas as pd
# 从csv文件读取数据，数据表格中只有5行，里面包含了float，string，int三种数据python类型，也就是分别对应的pandas的float64，object，int64
# csv文件中共有六列，第一列是表头，其余是数据。
df = pd.read_csv("sales_data_types.csv")
print(df)
Customer Number     Customer Name          2016            2017  
0            10002  Quest Industries  $125,000.00     $162,500.00    
1           552278    Smith Plumbing  $920,000.00   $1,012,000.00    
2            23477   ACME Industrial   $50,000.00      $62,500.00    
3            24900        Brekke LTD  $350,000.00     $490,000.00    
4           651029         Harbor Co   $15,000.00      $12,750.00    

  Percent Growth Jan Units  Month  Day  Year Active  
0         30.00%       500      1   10  2015      Y  
1         10.00%       700      6   15  2014      Y  
2         25.00%       125      3   29  2016      Y  
3          4.00%        75     10   27  2015      Y  
4        -15.00%    Closed      2    2  2014      N
df.dtypes
Customer Number     int64
Customer Name      object
2016               object
2017               object
Percent Growth     object
Jan Units          object
Month               int64
Day                 int64
Year                int64
Active             object
dtype: object
# 假如想得到2016年与2017年的数据总和，可以尝试,但并不是我们需要的答案，因为这两列中的数据类型是object，执行该操作之后，得到是一个更加长的字符串，
# 当然我们可以通过df.info() 来获得关于数据框的更多的详细信息，
df['2016']+df['2017']
0      $125,000.00 $162,500.00 
1    $920,000.00 $1,012,000.00 
2        $50,000.00 $62,500.00 
3      $350,000.00 $490,000.00 
4        $15,000.00 $12,750.00 
dtype: object
df.info()
# Customer Number 列是float64，然而应该是int64
# 2016 2017两列的数据是object，并不是float64或者int64格式
# Percent以及Jan Units 也是objects而不是数字格式
# Month，Day以及Year应该转化为datetime64[ns]格式
# Active 列应该是布尔值
# 如果不做数据清洗，很难进行下一步的数据分析，为了进行数据格式的转化，pandas里面有三种比较常用的方法
# 1. astype()强制转化数据类型
# 2. 通过创建自定义的函数进

最低0.47元/天解锁文章

未眠-1031

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
没有为类型 object 定义方法 read()_pandas 数据类型转换

数据处理过程的数据类型当利用pandas进行数据处理的时候，经常会遇到数据类型的问题，当拿到数据的时候，首先需要确定拿到的是正确类型的数据，一般通过数据类型的转化，这篇文章就介绍pandas里面的数据类型（data types也就是常用的dtyps），以及pandas与numpy之间的数据对应关系。主要介绍object，int64，float64，datetime64，bool等几种类型，cate...
复制链接

扫一扫