文本预处理——文本张量表示方法

12 篇文章 5 订阅 ¥9.90 ¥99.00
本文介绍了文本张量表示的重要性,从One-hot编码的概念、实现及优缺点,过渡到Word2Vec的CBOW和skipgram模型,以及Word Embedding的广泛意义。Word2Vec通过无监督学习生成词向量,解决了One-hot编码的局限性。
摘要由CSDN通过智能技术生成

目录

0 概论

1 One-hot

2 Word2Vec

3 Word Embeddin


0 概论

  • What is 文本张量表示
    • 将一段文本使用张量进行表示,其中一般将词汇表示为向量,称为词向量,再由各个词向量按照顺序组成矩阵形成文本表示。
  • 文本向量表示的作用
    • 将文本表示成张量(矩阵)形式,能够使语言文本可以作为计算机处理程序的输入,进行接下来一系列的解析工作。
  • 文本张量表示方法
    • One-hot 编码
    • Word2Vec
    • Word Embedding

1 One-hot

  • One-hot 编码
    • 又称独热编码,将每个词表示成具有n个元素的向量,这个词向量中只有一个元素是1,其他元素都是0,不同词汇元素为0的位置不同,其中 n 的大小是整个语料中不同词汇的总数。
  • One-hot 编码实现
# 导入用于对象保存与加载的joblib
import joblib

# 导入keras中的词汇映射器Tokenizer
from keras.preprocessing.text import Tokeniz
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

OR_0295

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值