1_文本处理与词嵌入

最新推荐文章于 2024-02-22 23:58:42 发布

少云清

最新推荐文章于 2024-02-22 23:58:42 发布

阅读量218

点赞数

分类专栏： NLP 文章标签：自然语言处理深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/brawly/article/details/120528515

版权

NLP 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

文章目录

一、前提
二、Text to Sequence（文本处理）
三、Word Embedding: Word to Vector（词嵌入：把单词表示成低维向量）
- 3.1 One-Hot Encoding（one-hot 编码）
- 3.2 Word Embedding（词嵌入）
四、Logistic Regression for Binary Classification（用逻辑回归做二分类）

一、前提

The IMDB Movie Review Dataset

50K movie reviews (text).
Each review is labeled with either "positive"or “negative”.
It is a binary classification problem.（二分类问题）
25K for training and 25K for test.

http://ai.stanford.edu/~amaas/data/sentiment/

http://s3.amazonaws.com/text-datasets/acllmdb.zip

二、Text to Sequence（文本处理）

文本处理的好坏直接影响机器学习的准确率

2.1 Tokenization（分词）

把文本分隔为单词。
一个token(符号)就是一个单词或者字符。

2.2 Build Dictionary（建立一个字典）

可以首先统计词频，去掉低频词，然后让每一个单词对应每一个正整数，有了字典，就可以把每一个单词映射为每一个整数，这样一句话就可以用正整数的列表表示。而这个列表被称为sequences（序列）

2.3 One-Hot Encoding

如果有必要，可以进一步做one-hot encoding，把单词变为one-hot向量。

2.4 Align Sequences（对齐序列）

训练数据没有对齐，每个序列都有不同的长度，在做机器学习的时候，我们把数据存储在矩阵或者张量中，这就需要把序列对齐，每条序列都有相同的长度。

解决方法如下：

三、Word Embedding: Word to Vector（词嵌入：把单词表示成低维向量）

文本处理已经完成，每一个词都用一个正整数来表示。

3.1 One-Hot Encoding（one-hot 编码）

用one-hot向量来表示一个单词。

3.2 Word Embedding（词嵌入）

Embedding往往表示有降维的意思。

d表示词向量的维度，由用户自己决定；
v是字典里单词的数量；
矩阵的乘法结果计作向量X_i，其是一个词向量，维度为d；
P转置矩阵的每一列都是一个词向量。
参数矩阵p是从训练数据中学习到的，所以学习到的词向量会带有感情色彩。

四、Logistic Regression for Binary Classification（用逻辑回归做二分类）

判断电影评论是正面还是负面的。

4.1 Performance on the training and validation sets（训练和验证集的表现）

4.2 Performance on test set（测试集表现）

4.3 Logistic Regression for Sentiment Analysis

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

少云清 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。