文件格式转化过程
一、网络下载的文件有各种各样如csv,如何传化成我们需要的格式文件呢
1、使用‘,’作为分割的csv文件方法:
1)将下载文件如tsv转存成txt格式文件
2)将txt文件转存成xlsx格式文件
3)在xlsx中修改文件,存储,另存为(csv(逗号分割)*.csv)
4)将csv文件用txt打开,另存成1.csv文件
2、 使用python,使用pandas库读取csv格式文件,去掉label列的空行,并重置索引。将新的数据存储成jsonl格式文件,程序名为1CVline
import pandas as pd import jsonlines # 读取csv文件 data = pd.read_csv('train11-2.csv') # 删除label列的所有空行 data = data[data['label'].notna()] # 重置索引 data = data.reset_index(drop=True) print(data.head(5)) x=[] output_type={0:'积极',1:'消极'} for i in range(0,len(data)): value={} value['instrution']='请分析评论的情感色彩,仅回复积极或者消极' value['input']=data['text_a'][i] value['output']=output_type[data['label'][i]] x.append(value) with jsonlines.open('outputjsonl0408.jsonl','w')as file: file.write_all(x)
import pandas as pd import jsonlines # 读取csv文件 data = pd.read_csv('train11-2.csv') # 删除label列的所有空行 data = data[data['label'].notna()] # 重置索引 data = data.reset_index(drop=True) print(data.head(5)) x=[] output_type={0:'积极',1:'消极'} for i in range(0,len(data)): value={} value['instrution']='请分析评论的情感色彩,仅回复积极或者消极' value['input']=data['text_a'][i] value['output']=output_type[data['label'][i]] x.append(value) with jsonlines.open('outputjsonl0408.jsonl','w')as file: file.write_all(x)
3、使用with open方式打开文件,并存储成csv格式,程序名为1CVline1
import jsonlines #,分割 # 打开CSV文件 with open('D:\\OpenAI\\TSK1A\\pythonProject1\\train11-2.csv', 'r', encoding='UTF-8') as file: lines = file.readlines() output_type={'0':'积极','1':'消极'} x=[] for line in lines: parts = line.split('\t') if line[0] in ['0','1']: value = {} value['instruction'] = '请分析评论的情感色彩,仅回复积极或者消极' value['input'] = line[2:].split('\n')[0] value['output'] = output_type[line[0]] x.append(value) if len(x)>2000: break with jsonlines.open('outputjsonl123.jsonl','w')as file: file.write_all(x)
import jsonlines #,分割 # 打开CSV文件 with open('D:\\OpenAI\\TSK1A\\pythonProject1\\train11-2.csv', 'r', encoding='UTF-8') as file: lines = file.readlines() output_type={'0':'积极','1':'消极'} x=[] for line in lines: parts = line.split('\t') if line[0] in ['0','1']: value = {} value['instruction'] = '请分析评论的情感色彩,仅回复积极或者消极' value['input'] = line[2:].split('\n')[0] value['output'] = output_type[line[0]] x.append(value) if len(x)>2000: break with jsonlines.open('outputjsonl123.jsonl','w')as file: file.write_all(x)
4、使用‘\t’作为分割的csv文件方法:程序名为1CVline2
1)将下载文件如tsv转存成txt格式文件
2)将txt文件转存成xlsx格式文件
3)在xlsx中修改文件,存储,另存为(txt)
4)用txt打开,另存成.csv文件
import jsonlines #\t分割 # 打开CSV文件 with open('D:\\OpenAI\\TSK1A\\pythonProject1\\train3.csv', 'r', encoding='UTF-8') as file: lines = file.readlines() output_type={'0':'积极','1':'消极'} x=[] for line in lines: parts = line.split('\t') if parts[0] in ['0','1']: value = {} value['instruction'] = '请分析评论的情感色彩,仅回复积极或者消极' value['input'] = parts[1].split('\n')[0] value['output'] = output_type[parts[0]] x.append(value) if len(x)>2000: break with jsonlines.open('outputjsonl2.jsonl', 'w') as file: file.write_all(x)
import jsonlines #\t分割 # 打开CSV文件 with open('D:\\OpenAI\\TSK1A\\pythonProject1\\train3.csv', 'r', encoding='UTF-8') as file: lines = file.readlines() output_type={'0':'积极','1':'消极'} x=[] for line in lines: parts = line.split('\t') if parts[0] in ['0','1']: value = {} value['instruction'] = '请分析评论的情感色彩,仅回复积极或者消极' value['input'] = parts[1].split('\n')[0] value['output'] = output_type[parts[0]] x.append(value) if len(x)>2000: break with jsonlines.open('outputjsonl2.jsonl', 'w') as file: file.write_all(x)