我们在做各种模型训练时,往往会先将数据处理成矩阵,然后交给建模的人去训练。这时通常数据清洗者提交的是保存了矩阵的文件,一般为TXT或csv,接下来主要讲解我在实现这个过程中遇到的一些问题。
importnumpy
numpy.savetxt('new.csv', my_matrix, delimiter=',')
看上面这段d代码,通常我们会直接使用上面这两句代码来进行保存。但通常会遇到下面两类错误:
1. 类型匹配错误
如上面截图。原因是:loadtxt()这个函数本身在默认情况下认为数据元素都是数值型的,所以用%.18e的格式去读取。所以当遇到str或其他非数值型时就会出错。这里是的指定数据类型解决的。正确代码如下:
importnumpy
numpy.savetxt('new.csv', my_matrix, fmt='%s', delimiter=',')
2. 存入csv文件时,部分数据丢失
原因,csv默认是用逗号分隔的,所以如果你的数据中含有逗号,就会被它识别,因此在存入之前,应先将逗号进行提换或者加转义字符。
这里补充一下saveTXT的原型:
numpy.savetxt
numpy.savetxt(fname, X, fmt=&