循环神经网络和自然语言处理一

Mr终游

已于 2024-08-07 22:22:25 修改

阅读量301

点赞数 3

分类专栏：深度学习文章标签： rnn 自然语言处理人工智能

于 2024-08-07 22:20:11 首次发布

本文链接：https://blog.csdn.net/m0_73426548/article/details/141001230

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

既然是自然语言，那么就有字，词，句了

一.分词

1.分词工具

tokenization，jieba，清华大学的分词工具THULAC等等

2.分词的方法

对于中文我们可用把句子分为词语或者字，比如我爱那个姑娘，可以分为[我，爱，那个，姑娘]，或者[我，爱，那，个，姑，娘]

对于英文来说直接按照空格分就可以了

3.N-gram表示方法

前面我们说句子可以分为单个字或者词，但是有些时候我们要用到三个字，四个字，五个字等等这些词语来表示，而N-gram就是用来将句子分为一组一组的词语，N表示能够被一起使用的字或者词的数量

import jieba
s='很多深度学习算法中都会包含"神经网络"这个词，比如：卷积神经网络、循环神经网络'
cuted=jieba.lcut(s)
# 这里就是N-grad方法，这里的N=2，两个词的意思
[cuted[i:i+2] for i in range(len(cuted)-1)]
print(cuted)

运行后打印出[['很多', '深度'], ['深度', '学习'], ['学习', '算法'], ['算法', '中'], ['中', '都'], ['都', '会'], ['会', '包含'], ['包含', '"'], ['"', '神经网络'], ['神经网络', '"'], ['"', '这个'], ['这个', '词'], ['词', '，'], ['，', '比如'], ['比如', '：'], ['：', '卷积'], ['卷积', '神经网络'], ['神经网络', '、'], ['、', '循环'], ['循环', '神经网络']]

二.向量化

因为计算机不能识别文字，所以要把文字向量化，转化成数字形式

1.one-hot编码

在one-hot编码中，每一个字词使用一个长度为N的向量表示，N表示token的数量。比如我们要对“深度学习”进行分词one-hot处理

2.word embedding

这个方法是深度学习中常用的方法，word embadding使用了浮点型的稠密矩阵来表示token。根据需要分词的文本，我们的向量通常采用不同的维度，比如100，256，300等等。其中向量中的每一个值都是参数，其初始值是随机生成的，之后会在训练的过程中不断的学习改进获得

比如一个文本中有10000个字词，如果使用one-hot编码，那么生成的矩阵就是10000*10000的大小，而且每个字词的代表向量基本是用0组成的。而用word embedding来表示的画，只需要10000*200，或者10000*300大小的矩阵。

我们把所有文本转化为向量，把句子用向量来表示。但是在着中间，我们先把token使用数字来表示，在把数字用向量来表示，因为文字计算机识别不了。token----->num----->vector

3.word embedding API

在torch中导入，torch.nn.Embedding(num_embeddings, embedding_dim)。其中num_embedding表示词典的大小，embedding_dim表示embedding的维度也就是上面说的100，256，300等等。

4.数据形状改变

比如每一个batch中的每个句子有十个词语，经过形状为[20，4]的word emebedding之后，原来的句子会变成[batch_size,10,4]的形状。相当于增加了一个维度，比如二维数据变成三维

关注我持续更新！！！

Mr终游

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
循环神经网络和自然语言处理一

比如一个文本中有10000个字词，如果使用one-hot编码，那么生成的矩阵就是10000*10000的大小，而且每个字词的代表向量基本是用0组成的。前面我们说句子可以分为单个字或者词，但是有些时候我们要用到三个字，四个字，五个字等等这些词语来表示，而N-gram就是用来将句子分为一组一组的词语，N表示能够被一起使用的字或者词的数量。对于中文我们可用把句子分为词语或者字，比如我爱那个姑娘，可以分为[我，爱，那个，姑娘]，或者[我，爱，那，个，姑，娘]
复制链接

扫一扫

专栏目录