1-1自然语言csv格式清洗成jsonl格式

文件格式转化过程

一、网络下载的文件有各种各样如csv,如何传化成我们需要的格式文件呢

1、使用‘,’作为分割的csv文件方法:

1)将下载文件如tsv转存成txt格式文件

2)将txt文件转存成xlsx格式文件

3)在xlsx中修改文件,存储,另存为(csv(逗号分割)*.csv)

4)将csv文件用txt打开,另存成1.csv文件

2、 使用python,使用pandas库读取csv格式文件,去掉label列的空行,并重置索引。将新的数据存储成jsonl格式文件,程序名为1CVline

import pandas as pd import jsonlines # 读取csv文件 data = pd.read_csv('train11-2.csv') # 删除label列的所有空行 data = data[data['label'].notna()] # 重置索引 data = data.reset_index(drop=True) print(data.head(5)) x=[] output_type={0:'积极',1:'消极'} for i in range(0,len(data)): value={} value['instrution']='请分析评论的情感色彩,仅回复积极或者消极' value['input']=data['text_a'][i] value['output']=output_type[data['label'][i]] x.append(value) with jsonlines.open('outputjsonl0408.jsonl','w')as file: file.write_all(x)

import pandas as pd
import jsonlines
# 读取csv文件
data = pd.read_csv('train11-2.csv')
# 删除label列的所有空行
data = data[data['label'].notna()]

# 重置索引
data = data.reset_index(drop=True)
print(data.head(5))
x=[]
output_type={0:'积极',1:'消极'}
for i in range(0,len(data)):
    value={}
    value['instrution']='请分析评论的情感色彩,仅回复积极或者消极'
    value['input']=data['text_a'][i]
    value['output']=output_type[data['label'][i]]
    x.append(value)
with jsonlines.open('outputjsonl0408.jsonl','w')as file:
    file.write_all(x)

3、使用with open方式打开文件,并存储成csv格式,程序名为1CVline1

import jsonlines #,分割 # 打开CSV文件 with open('D:\\OpenAI\\TSK1A\\pythonProject1\\train11-2.csv', 'r', encoding='UTF-8') as file: lines = file.readlines() output_type={'0':'积极','1':'消极'} x=[] for line in lines: parts = line.split('\t') if line[0] in ['0','1']: value = {} value['instruction'] = '请分析评论的情感色彩,仅回复积极或者消极' value['input'] = line[2:].split('\n')[0] value['output'] = output_type[line[0]] x.append(value) if len(x)>2000: break with jsonlines.open('outputjsonl123.jsonl','w')as file: file.write_all(x)

import jsonlines
#,分割
# 打开CSV文件
with open('D:\\OpenAI\\TSK1A\\pythonProject1\\train11-2.csv', 'r', encoding='UTF-8') as file:
    lines = file.readlines()

output_type={'0':'积极','1':'消极'}
x=[]
for line in lines:
    parts = line.split('\t')
    if line[0] in ['0','1']:
        value = {}
        value['instruction'] = '请分析评论的情感色彩,仅回复积极或者消极'
        value['input'] = line[2:].split('\n')[0]
        value['output'] = output_type[line[0]]
        x.append(value)
        if len(x)>2000:
            break
with jsonlines.open('outputjsonl123.jsonl','w')as file:
    file.write_all(x)

4、使用‘\t’作为分割的csv文件方法:程序名为1CVline2

1)将下载文件如tsv转存成txt格式文件

2)将txt文件转存成xlsx格式文件

3)在xlsx中修改文件,存储,另存为(txt)

4)用txt打开,另存成.csv文件

import jsonlines #\t分割 # 打开CSV文件 with open('D:\\OpenAI\\TSK1A\\pythonProject1\\train3.csv', 'r', encoding='UTF-8') as file: lines = file.readlines() output_type={'0':'积极','1':'消极'} x=[] for line in lines: parts = line.split('\t') if parts[0] in ['0','1']: value = {} value['instruction'] = '请分析评论的情感色彩,仅回复积极或者消极' value['input'] = parts[1].split('\n')[0] value['output'] = output_type[parts[0]] x.append(value) if len(x)>2000: break with jsonlines.open('outputjsonl2.jsonl', 'w') as file: file.write_all(x)

import jsonlines
#\t分割
# 打开CSV文件
with open('D:\\OpenAI\\TSK1A\\pythonProject1\\train3.csv', 'r', encoding='UTF-8') as file:
    lines = file.readlines()
output_type={'0':'积极','1':'消极'}
x=[]
for line in lines:
    parts = line.split('\t')
    if parts[0] in ['0','1']:
        value = {}
        value['instruction'] = '请分析评论的情感色彩,仅回复积极或者消极'
        value['input'] = parts[1].split('\n')[0]
        value['output'] = output_type[parts[0]]
        x.append(value)
        if len(x)>2000:
            break

with jsonlines.open('outputjsonl2.jsonl', 'w') as file:
    file.write_all(x)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值