在读取嵌入词向量文件glove.6B.50d.txt 的编程作业中,出现了如下错误:
'gbk' codec can't decode byte 0x93 in position 3136:
按照网上教程修改read_glove_vecs函数,读取格式改为utf-8后,出现的新的错误:
'utf-8' codec can't decode byte 0xa8 in position 3134: invalid start byte
很无奈,将read_glove_vecs函数改回原始状态,再将txt文件编码格式修改为UTF-8 BOM,本来已经读取成功了,但是计算余弦相似度的时候一直卡在jupyter里边,退出来再进去又有相同的错误。
QNMD,不管了,直接命令行执行吧,意外的竟然通过了!