将str写入h5文件

核心问题:

h5py写入str不支持unicode编码,可以先将其转为utf-8,再写入

sents1 = [tmp.encode('utf8') for tmp in sents1]
synts1 = [tmp.encode('utf8') for tmp in synts1]

 代码:

def parse(input_file1,input_file2,output_file):

    nlp = StanfordCoreNLP(r'D:\\stanford_nlp')
    lines = open(input_file1, "r", encoding="utf-8").readlines()
    f = h5py.File(output_file, 'w')


    sents1 = []
    synts1 = []
    dtype = h5py.special_dtype(vlen=str)
   
    for line in lines:
        sents1.append(line.strip('\n'))
        result = " ".join(nlp.parse(line).split())
        synts1.append(result)
   
    sents1 = [tmp.encode('utf8') for tmp in sents1]
    synts1 = [tmp.encode('utf8') for tmp in synts1]


    f.create_dataset("sents1",dtype=dtype, data=sents1)
    f.create_dataset("synts1",dtype=dtype, data=synts1)
    lines = open(input_file2, "r", encoding="utf-8").readlines()
   
    sents2 = []
    synts2 = []
    for line in lines:
        sents2.append(line.strip('\n'))
        result = " ".join(nlp.parse(line).split())
        synts2.append(result)

    sents2 = [tmp.encode('utf8') for tmp in sents2]
    synts2 = [tmp.encode('utf8') for tmp in synts2]
    f.create_dataset("sents2",dtype=dtype, data=sents2)
    f.create_dataset("synts2",dtype=dtype, data=synts2)
    f.close()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值