我有一个CSV文件的制表符分隔数据与标题和不同类型的数据,我想转换成一个字典的矢量。最后,我想将字典转换成numpy数组,并以某种二进制格式存储它们,以便通过不同的脚本快速检索。这是一个大文件,大约有700k条记录和16列。以下是示例:"answer_option" "value" "fcast_date" "expertise"
"a" 0.8 "2013-07-08" 3
"b" 0.2 "2013-07-08" 3
我已经开始在DictReader类中实现这一点,我正在学习。在
^{pr2}$
结果就是这样{'answer_option': ['a', 'b'],
'value': ['0.8', '0.2'],
'fcast_date': ['2013-07-08', '2013-07-08'],
'expertise': ['3', '3']}
除了必须从数值中清除包含它们的引号字符这一小麻烦之外,我想也许还有一些现成的东西。我还想知道是否有任何东西可以直接从文件中提取到numpy向量,因为我不需要在字典中转换数据。在
我看了看SciPy.org网站搜索CSV也涉及HDF5和genfromtxt,但我还没有深入到这些建议中。理想情况下,我希望能够以快速加载格式存储数据,这样只需一个命令就可以从其他脚本加载,其中所有向量都可以像在Matlab/Octave中一样可用。欢迎提出建议
编辑:数据以制表符分隔,字符串用引号括起来。在