我需要处理大量CSV文件,其中时间戳始终是以毫秒为单位表示unix时间戳的字符串。我找不到有效修改这些列的方法。
这就是我想出来的,但是这当然只复制列,而且我必须以某种方式将它放回原始数据集。我确信在创建DataFrame时可以完成?import sys
if sys.version_info[0] < 3:
from StringIO import StringIO
else:
from io import StringIO
import pandas as pd
data = 'RUN,UNIXTIME,VALUE\n1,1447160702320,10\n2,1447160702364,20\n3,1447160722364,42'
df = pd.read_csv(StringIO(data))
convert = lambda x: datetime.datetime.fromtimestamp(x / 1e3)
converted_df = df['UNIXTIME'].apply(convert)
这将选择“UNIXTIME”列并将其从0 1447160702320
1 1447160702364
2 1447160722364
Name: UNIXTIME, dtype: int64
进入这个0 2015-11-10 14:05:02.320
1 2015-11-10 14:05:02.364
2 2015-11-10 14:05:22.364
Name: UNIXTIME, dtype: datetime64[ns]
但是,我想使用类似pd.apply()的方法来获取转换列返回的整个数据集,或者正如我已经编写的那样,只需在从CSV生成数据帧时创建datetimes。