【王树森】RNN模型与NLP应用(1/9)：数据处理基础（个人向笔记）

好心的小明

于 2024-08-29 09:59:36 发布

阅读量616

点赞数 10

文章标签： rnn 自然语言处理笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hxdxiaoming/article/details/141668120

版权

数值特征和分类特征

以下图为例子进行学习：
在这里插入图片描述

Age： 年龄本身就是数值特征，数值特征可以比较大小。
Gender： 二分的分类特征，可以用0和1来表示男性和女性。
Natinoality： 可以用0-197的这些数字建立一一映射，但是由于国籍之间没有大小关系。固改用One-hot编码来表示国籍：用197维的向量来表示。其中全0的向量代表国籍缺失。

这样，我们就可以用一个199维的向量来表示一个人：

Quesion: 为什么国籍要用One-Hot编码而不是直接用数字编码更节省存储空间？

数字编码相加无实际意义：
One-hot编码的相加更能够表示特征：

处理文本数据

Step1：Tokenization(Text to Words)

把文本中的单词都进行分割，将一篇文变为一个个词：
在这里插入图片描述

Step2：计算词频

建立一个空的哈希表来对词频进行计数
对哈希表按照词频由大到小进行排序，index从1开始。（哈希表长度被称为vocalubary）①为避免最后vocalubary过于庞大，我们进行计数和排序的目的就在于此，②还可以筛选掉一些人名或者拼写错误的词，最后只取排序前面的单词进行编码即可。

Step3：One-hot编码

对文本中的每一个词编码成其在哈希表中的index：
在这里插入图片描述
若一个单词在哈希表中不存在，则直接编码为0或者忽略即可。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。