文本预处理

豫儿啊~

于 2024-08-31 11:21:56 发布

阅读量81

点赞数 3

文章标签：人工智能自然语言处理深度学习

本文链接：https://blog.csdn.net/djylovehzt/article/details/141750077

版权

文本预处理
   文本张量表示:
       word2vec之skipgram方式:
核心思想:给出一段文本,选择一定窗口获取数据集,利用中间词来预测上下文
       fasttext实现word2vec的训练
基本过程:
1.获取数据
2.训练模型(训练词向量)
3.向量的检验
4,超参数设定
5.模型的保存和加载
       WordEmbedding词向量
word2vec缺点
静态方法,不一定解决一词多义问题
实现过程
借助nn.Embedding(vocab_size,embed_dim):vocab_size代表词汇(去重之后)的总量,embed_dim是我们设定的词向量维度;本质创建一个权重矩阵(充当向量矩阵),矩阵参数会随着模型的训练迭代更新
   文本数据分析
       文本数据分析的作用
1.帮助我们理解语料
2.可以分析语料中可能存在的问题,指导我们设定模型的超参数等功能
       标签数量分布
目的:查询样本是否均衡,如果样本过大,需要减少数据;如果样本过少,需要增加数据
       句子长度分布
目的:模型一般规定需要输入固定的尺寸,也就是长度统一,通过分析句子长度,可以明确大部分样本属于什么长度范围,然后进行句子的长短补齐或截断
       词频和高频词云
词频:这里指的是统计样本中词汇的总数量(需要去重)
高频词云目的;可以方便我们查看数据集中是否存在脏数据,进而实现人工智能的审核和清洗

豫儿啊~

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本预处理

借助nn.Embedding(vocab_size,embed_dim):vocab_size代表词汇(去重之后)的总量,embed_dim是我们设定的词向量维度;目的:模型一般规定需要输入固定的尺寸,也就是长度统一,通过分析句子长度,可以明确大部分样本属于什么长度范围,然后进行句子的长短补齐或截断。目的:查询样本是否均衡,如果样本过大,需要减少数据;2.可以分析语料中可能存在的问题,指导我们设定模型的超参数等功能。词频:这里指的是统计样本中词汇的总数量(需要去重)2.训练模型(训练词向量)
复制链接

扫一扫