我用word2vec训练了词向量模型,保存为txt文件。现需转为csv文件,导入向量数据库,以下是格式转换过程,仅记录学习过程以供后续参考。
原始数据为txt文件,用Excel打开后格式如下:
可以看出其词是由一个英文实体词加上“/ME”或“/DO”加上一串数字构成的。后面对应的是其向量。现在我希望将实体词及其对应向量分为两列方便读取,但词和向量以及向量每个维度之间均用空格隔开。因此,可以使用excel公式来帮助解决:
通用公式
在第一个空格之前获取所有内容的通用公式
=LEFT(A1,FIND(" ",A1)-1)
在第一个空格之后获取所有内容的通用公式
=RIGHT(A1,LEN(A1)-FIND(" ",A1))
转换后的数据如B、C两列所示。
参数
A1:代表包含您将被第一个空格分割的文本字符串的单元格。
参考:https://zh-cn.extendoffice.com/excel/formulas/excel-split-by-first-space.html