bert获得词向量_无监督语义相似度匹配之Bert抽取文本特征实战

最新推荐文章于 2024-06-07 09:46:09 发布

weixin_39847887

最新推荐文章于 2024-06-07 09:46:09 发布

阅读量3.2k

点赞数 2

文章标签： bert获得词向量 go build 无文件

今天记一次采用bert抽取句子向量的实战过程，主要是想感受一下bert抽取出来的句子特征向量是否真的具有不错的语义表达。

在此之前，我们来回顾一下，如果我们想拿到一个句子的特征向量可以采用什么样的方式(ps 这些下方总结只是笔者在工作中学到的一些文本向量抽取方式，可能并未收集齐全)：

词向量的平均(mean)：直观理解就是将句子中每个词的词向量求平均，向量维度等于词向量维度。可以使用工具是gensim中的word2vec。
Doc2Vec：主要借鉴了word2vec思想去训练句子向量，向量维度可以自己设置。可以使用工具是gensim中的doc2vec。
Bert 生成的句子向量：BERT的每一层的输出其实都可以看作句子的向量，你可以有很多种方式去抽取文本向量，比如官方给出的取最后四层的句子向量拼接（输出维度：[maxlen,768*4]）或者求平均(输出维度：[maxlen,768]。后续也许你需要在对句子向量求一下平均，这样文本向量的维度就为768。可以采用的工具是官方开源的代码中的extract_features.py，当然也可以采用一些其他方式，我在实战部分会介绍另外一种。

关注