NLP学习笔记（二）：文本分类与词嵌入

最新推荐文章于 2023-07-05 23:35:31 发布

Q同学的nlp笔记

最新推荐文章于 2023-07-05 23:35:31 发布

阅读量961

点赞数

分类专栏：自然语言处理 NLP 文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011426236/article/details/115251252

版权

自然语言处理同时被 2 个专栏收录

41 篇文章 25 订阅

订阅专栏

39 篇文章 4 订阅

订阅专栏

文本分类与词嵌入（Text Processing and Word Embedding）

数据集（Dataset）

本节课使用IMDb影评数据作为数据集。其包含有5万条影评文本，每段文本都有很明确的正向/负向情感（即为一个二分类问题）。其中2万5千条数据作为训练数据集，2万5千条数据作为测试数据集。

在这里插入图片描述

文本到序列（Text to Sequence）

我们首先需要把这段文本转换为序列。主要有以下几个步骤需要完成

Step 1: 分词（Tokenization）
Step 2: 建立词表（Build Dictionary）
Step 3: One-Hot编码（One-Hot Encoding）
Step 4: 序列对齐（Align Sequences）

分词（Tokenization）

在分词阶段，主要是完成将一段文本转换为一个token的列表的功能。这里的token可以是word，也可以是character或者sub-word等形式。
在这里插入图片描述
在这个过程中，我们要考虑很多问题，诸如：

是否对单词进行小写化处理
是否移除停用词
是否进行拼写纠正
等等。

建立词表（Build Dictionary）

在建立词表阶段，我们需要建立一个单词到索引的字典用于将每个单词映射到一个数值编号中。
在这里插入图片描述

One-Hot编码（One-Hot Encoding）

然后，我们对文本中的单词按照建立好的词表进行One-Hot编码。

在这里插入图片描述

序列对齐（Align Sequences）

经过One-Hot编码后，每段文本都变成了一个token编号的序列。但同时出现了一个问题：每段文本编码后的token列表的长度不一。这显然不利于我们进行向量化并行处理。

对于这个问题，一般的解决思路为：

截断过长的文本，比如只保留一段文本的前w或后w个token
填充过短的文本，设置一个特殊的token为<PAD>，当文本的token数目不够w时在前面或后面的位置进行填充

在Keras中处理文本（Text Processing in Keras）

Keras实现略

词嵌入：从单词到嵌入（Word Embedding: Word to Vector）

最简单的词嵌入方式就是One-Hot Encoding，但这种嵌入方式所占空间维数大，也无法体现词与词之间的关系。因而，我们需要一种方式将One-Hot 向量映射到一个低维的嵌入空间中.

在这里插入图片描述

如图所示，P是一个可以从训练数据学习到的参数矩阵，用于把一个One-Hot Encoding转换为低维向量。假设转换后的向量维度为d，那么参数矩阵P的维度为 $\times p$ ，转换时只要令 $P^T$ 左乘One-Hot 向量即可得到转化后的低维向量。那么如何解释这些低维向量呢？我们将它们投射到一个二维平面上，可以看到具有相似类型的单词聚集到了一起。例如“boring”、“poor”等消极情绪的词汇聚集到了一起，“fun”、“good”等积极情绪的词汇聚集到了一起。

利用Logistics回归进行二分类（Logistic Regression for Binary Classification）

最后，我们使用Logistics回归来实现这个二分类。

Keras实现略

Q同学的nlp笔记

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
NLP学习笔记（二）：文本分类与词嵌入

文本分类与词嵌入（Text Processing and Word Embedding）数据集（Dataset）本节课使用IMDb影评数据作为数据集。其包含有5万条影评文本，每段文本都有很明确的正向/负向情感（即为一个二分类问题）。其中2万5千条数据作为训练数据集，2万5千条数据作为测试数据集。文本到序列（Text to Sequence）我们首先需要把这段文本转换为序列。主要有以下几个步骤需要完成Step 1: 分词（Tokenization）Step 2: 建立词表（Build Dicti
复制链接

扫一扫

专栏目录

Q同学的nlp笔记 CSDN认证博客专家 CSDN认证企业博客

码龄11年

112: 原创

4万+: 周排名

1万+: 总排名

20万+: 访问

: 等级

2533: 积分

534: 粉丝

755: 获赞

126: 评论

1003: 收藏

私信

关注

热门文章

分类专栏

leetcode刷题笔记 5篇
Text-to-SQL 15篇
自然语言处理 41篇
NLP 39篇
Github 1篇
Git 1篇
Pytorch 16篇
论文投稿 2篇
Linux 5篇
VScode 1篇
句法分析 4篇
jupyterlab 1篇
Bert 1篇
Java 1篇
Latex 1篇
MATLAB 5篇
Android
Python 9篇
Gephi 1篇
数据可视化 1篇
VMware
Windows技巧 1篇
云计算 2篇
OpenStack 3篇

最新评论

Phi-2：小型语言模型令人惊人的能力
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
高质量数据至关重要：phi-1.5论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
CLIP论文笔记：Learning Transferable Visual Models From Natural Language Supervision
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
高质量数据is all you need：Textbooks Are All You Need论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Huggingface T5模型代码笔记
Q同学的nlp笔记: 你好，可以参考上面的Tokenizer介绍，实际上就是一个T5的Tokenizer。 from transformers import T5ForConditionalGeneration, T5Tokenizer model = T5ForConditionalGeneration.from_pretrained("t5-small") tokenizer = T5Tokenizer.from_pretrained("t5-small")

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。