NLP 面试题1

1: 词向量是什么, 有哪些方式生成词向量, 句子的词向量是什么?

词向量 :就是将词映射成机器能够识别的数字的过程。

生成词向量:大概有三种方法

1)one-hot 用Tokenizer类 可实现 优点是,简单,容易理解。缺点是 割裂词与词之间的关系。在大语料的情况下,暂用资源多,比如内存

2)word2vec 无监督训练方法。有 CBOW和skipgram 模式 。CBOW 是上下文词汇预测目标词汇。也就是两边预测中间。skipgram 与CBOW 相反,中间预测两边。

3)word Embedding 相当于在神经网络中加入Embedding 层,然后训练产生一个Embedding 矩阵

句向量

word2vec在计算词语之间相似度有不错的效果。但这种方法丢失了文本中的语序的信息。

这时候就产生了doc2vec,它很好的解决了文本中的语序问题。可通过gensim库来实现

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值