NLP修炼之旅(Day9)

文本表示:从one-hot到word2vec。
1.词袋模型:离散、高维、稀疏。
1.分布式表示:连续、低维、稠密。word2vec词向量原理并实践,用来表示文本

  1. 词袋模型
    文本表示分为离散表示与分布式表示,其中词袋模型BoW(Bag-of-words)是n-gram语法模型的特例1元模型,该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BoW使用一组无序的单词(words)来表达一段文字或一个文档

词袋模型的实现方式:

  • One-Hot Encoding
    只要在词典中出现的词,无论出现多少次,在BOW向量中都只算成1次,未出现的词算0次,然后根据词典构造只有0/1的向量
  • 词频向量 TF
    只要在词典中出现的词,出现多少次就算成多少次,未出现的词算0次,然后根据词典构造向量
  • TF-IDF
    各文档中每个单词的出现次数除以该文档中所有单词的总数,也可以对词频进行归一化来降低这种影响
  1. 分布式表示
    2.1 word2vec
    如果是用一个词语作为输入,来预测它周围的上下文,那这个模型叫做『Skip-gram 模型
    而如果是拿一个词语的上下文作为输入,来预测这个词语本身,则是 『CBOW 模型
    2.1.1CBOW
    CBOW 是 Continuous Bag-of-Words 的缩写,与神经网络语言模型不同的是,CBOW去掉了最耗时的非线性隐藏层
    2.1.2Skip-gram
    Skip-Gram的模型图与CBOW恰好相反
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值