数据预处理流程（NLP）

最新推荐文章于 2024-05-24 01:07:47 发布

厄运鹰人

最新推荐文章于 2024-05-24 01:07:47 发布

阅读量462

点赞数

分类专栏：数据预处理文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27166635/article/details/120117393

版权

数据预处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

真实类别标签构建标签索引字典。

构建字符索引字典

将输入句子切分为字符级别，然后生成字符级别的索引字典（通过索引找词，通过索引找向量方便）。

将输入句子转换为索引

补齐和截断，
补齐时（补齐的索引不重要，需要设置一下标志符区分，以区分真实字符索引）

以上数据如何放到模型中？

词嵌入层（embedding编码）

对词语进行embedding得到向量
输入：[batch_size,seq_length]
输出：[batch_size,seq_length,dim]

融入其他特征信息到词嵌入层中

位置信息：
位置设置长度[1,seq_len,dim]根据batch_size,使得一个batch_size所有句子都拼接一样的向量。
标志信息：
0,1表示上一句所有词，下一句所有词，见比较两句话相似度的任务
初始向量维度[2,768],两种不能可能性
构建长度为[batch_size*seq_len,2]的one-hot向量进行矩阵乘法，得到[batch_size,seq_len,768]

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据预处理流程（NLP）

真实类别标签构建标签索引字典。构建字符索引字典将输入句子切分为字符级别，然后生成字符级别的索引字典（通过索引找词，通过索引找向量方便）。将输入句子转换为索引补齐和截断，补齐时（补齐的索引不重要，需要设置一下标志符区分，以区分真实字符索引）以上数据如何放到模型中？词嵌入层（embedding编码）对词语进行embedding得到向量输入：[batch_size,seq_length]输出：[batch_size,seq_length,dim]融入其他特征信息到词嵌入层中位置信息：位置
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。