我有一个非常大的csv文件,我把它转换成了Pandas dataframe,它有字符串和整数/浮点值。我想把这些数据改成分类格式,这样可以节省一些内存。我的想法是基于这里的文档:https://pandas.pydata.org/pandas-docs/version/0.20/categorical.html
我的数据帧如下所示:clean_data_measurements.head(20)
station date prcp tobs
0 USC00519397 1/1/2010 0.08 65
1 USC00519397 1/2/2010 0.00 63
2 USC00519397 1/3/2010 0.00 74
3 USC00519397 1/4/2010 0.00 76
5 USC00519397 1/7/2010 0.06 70
6 USC00519397 1/8/2010 0.00 64
7 USC00519397 1/9/2010 0.00 68
8 USC00519397 1/10/2010 0.00 73
9 USC00519397 1/11/2010 0.01 64
10 USC00519397 1/12/2010 0.00 61
11 USC00519397 1/14/2010 0.00 66
12 USC00519397 1/15/2010 0.00 65
13 USC00519397 1/16/2010 0.00 68
14 USC00519397 1/17/2010 0.00 64
15 USC00519397 1/18/2010 0.00 72
16 USC00519397 1/19/2010 0.00 66
17 USC00519397 1/20/2010 0.00 66
18 USC00519397 1/21/2010 0.00 69
19 USC00519397 1/22/2010 0.00 67
20 USC00519397 1/23/2010 0.00 67
这是另外2700行的降水数据。因为它都是同一个类别(站号),所以应该可以转换成分类格式,这样可以节省处理时间。我只是不知道怎么写代码。有人能帮忙吗?谢谢。在