修改数据集格式

修改数据集格式,但是每行最后有空格

import random
if __name__ == '__main__':

    # name = './TREC/train.txt'
    with open('./data/weibo/dev/dev.txt', 'r', encoding='utf-8') as f:
        lines = f.readlines()#获取所有行
        sum = 0
        words = []
        tags = []
        for line in lines:
            if line.isspace() == False:#针对一句话

                for i,word in enumerate(line):
                    if word.isspace()==True or word=='  ':
                        words.append(line[:i].strip())
                        tags.append(line[i:].strip())
                        break
            else:#一句话结束
                with open('./data/weibo/dev/dev_words.txt', 'a', encoding='utf-8') as g:
                    for word in words:
                        g.write(word+' ')
                    g.write('\n')
                words = []
                with open('./data/weibo/dev/dev_tags.txt', 'a', encoding='utf-8') as z:
                    for tag in tags:
                        z.write(tag+' ')
                    z.write('\n')
                tags = []

        # with open('./data/weibo/dev/dev_words.txt', 'a', encoding='utf-8') as g:
        #     for word in words:
        #         g.write(word + ' ')
        #     g.write('\n')
        # 
        # with open('./data/weibo/dev/dev_tags.txt', 'a', encoding='utf-8') as z:
        #     for tag in tags:
        #         z.write(tag + ' ')
        #     z.write('\n')



        print(words)
        print(tags)



    f.close()
    g.close()
    z.close()

原格式:
在这里插入图片描述

修改后格式:
在这里插入图片描述在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值