csv:逗号分隔符文件
tsv:制表符分隔文件
误区:直接更改文件后缀名,表面上是改了,但是在实际使用的环境中,会引发程序异常
正解:
import pandas as pd
from sklearn.utils import shuffle # 用于数据的随机排列,也可不用
if __name__ == '__main__':
# 此处是读取中文数据,如果是英文数据,编码可能是'ISO 8859-1'
pd_all = pd.read_csv("../file/output.csv", sep=',', encoding='utf-8')
# 打乱数据
pd_all = shuffle(pd_all)
# 保存为tsv文件,当然也可以保存为csv文件,二者区别在于sep为'\t'还是','
pd_all.to_csv("../file/output.tsv", index=False, sep='\t', encoding='utf-8')
from sklearn.utils import shuffle # 用于数据的随机排列,也可不用
可以使行数据随机排列,不影响行内数据与原数据的一致性