1: 词向量是什么, 有哪些方式生成词向量, 句子的词向量是什么?
词向量 :就是将词映射成机器能够识别的数字的过程。
生成词向量:大概有三种方法
1)one-hot 用Tokenizer类 可实现 优点是,简单,容易理解。缺点是 割裂词与词之间的关系。在大语料的情况下,暂用资源多,比如内存
2)word2vec 无监督训练方法。有 CBOW和skipgram 模式 。CBOW 是上下文词汇预测目标词汇。也就是两边预测中间。skipgram 与CBOW 相反,中间预测两边。
3)word Embedding 相当于在神经网络中加入Embedding 层,然后训练产生一个Embedding 矩阵
句向量:
word2vec在计算词语之间相似度有不错的效果。但这种方法丢失了文本中的语序的信息。
这时候就产生了doc2vec,它很好的解决了文本中的语序问题。可通过gensim库来实现