关于如何使用glove词向量

本文介绍了在Python中遇到GloVe词向量文件以utf-8格式编码,但尝试以gbk编码读取时出现错误的问题。解决方案包括使用utf-8编码读取文件和通过二进制方式读取后再解码为utf-8。
摘要由CSDN通过智能技术生成

glove词向量为utf-8格式编码文件,python3中以gbk编码格式读入会出错:`

glove = open('glove.6B.100d.txt', 'r')
word = list()
word_vector = list()
line = glove.readline() #一行一行的读取,返回str
while line:
    line = list(line.split())
    word.append(line[0])
    word_vector.append(line[1:])
    line = glove.readline()

结果:

File "F:/data set/NLP/experiment1.py", line 9, in <module>
    line = glove.readline()
UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 5456: illegal multibyte sequence
line
['political', '-0.33926', '0.068714'<
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值