《基于Tensorflow的知识图谱实战》 --- 有趣的词嵌入--word embedding(二)| fastText和预训练词向量

⚽开发平台:jupyter lab

🎈运行环境:python3、TensorFlow2.x

word embedding(词嵌入),常用来进行情感分析、同义词聚类、文章分类和打标签。
(1)该部分内容介绍:通过多种计算word embedding的方法循序渐进的了解如何获取对应的word embedding,之后通过实战使用word embedding进行文本分类。
(2)该章节将分为四个部分,分别为:

  • 1.文本数据处理
  • 2.更多的word embedding方法—fastText和预训练词向量
  • 3.针对文本的卷积神经网络模型 — 字符卷积
  • 4.针对文本的卷积神经网络模型 — 词卷积
  • 5.使用卷积对文本分类的补充内容

1. fastText的原理和基础算法

优点:相对于传统的word2vec计算方法,fastText计算更快速和更新的一种word embedding方法
(1)fastText在保持高精度的情况下加快了训练速度和测试速度。
(2)fastText对word embedding的训练更加精准。
(3)fastText采用两个重要的算法:N-gram、Hierarchical Softmax。

1.1 N-gram算法

常用的方式:1-gram、2-gram、3-gram
(1)相对于word2vec中采用的CBOW架构,fastText采用的是N-gram架构。
(2)N理论上可以设置任意值,n为滑动窗口数,逐字向后移动。

1.2 Hierarchical Softmax算法

(1)当预料类别较多时,使用Hierarchical Softmax(hs)减轻计算量。
(2)fastText中的Hierarchical Softmax利用Huffman树实现,将词向量作为叶子结点,之后根据词向量构建Huffman树。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值