语言模型演化史

最新推荐文章于 2024-08-02 20:33:33 发布

dzzxjl

最新推荐文章于 2024-08-02 20:33:33 发布

阅读量702

点赞数

分类专栏： # 搜索与NLP 文章标签：语言模型自然语言处理人工智能

本站点用作笔记使用，如有侵权，请联系我进行删除，谢谢

本文链接：https://blog.csdn.net/dzzxjl/article/details/121346417

版权

搜索与NLP 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文探讨了词袋模型在文本表示中的应用，包括one-hot编码、n-gram语法以及其在文本降维和机器学习任务中的角色。尽管词袋模型存在维度过高和忽略语义信息的问题，但仍是理解文本特征表达的基础。关键词涉及词频、二元语法和TF-IDF等特征提取方法。

摘要由CSDN通过智能技术生成

语言模型演化史

在这里插入图片描述

Bag-of-words model

此模型下，一段文本（比如一个句子或是一个文档）可以用一个装着这些词的袋子来表示，这种表示方式不考虑文法以及词的顺序
文本的降维本质上涉及到了文本的表达形式

在传统的词袋模型当中，对于每一个词采用one-hot稀疏编码的形式，假设目标语料中共有N个唯一确认的词，那么需要一个长度N的词典，词典的每一个位置表达了文本中出现的某一个词。

在某一种特征表达下，比如词频、binary、tf-idf等，可以将任意词，或者文本表达在一个N维的向量空间里。凭借该向量空间的表达，可以使用机器学习算法，进行后续任务处理。
这种方式被称为n-gram语法，指文本中连续出现的n个语词。
当n分别为1、2、3时，又分别称为一元语法（unigram）、二元语法（bigram）与三元语法（trigram）。

词袋模型的缺点：

文本表达维度过高
不含有语义的信息，比如“乔布斯”和“乔帮主”两个词在这个表达下完全是不同的，但在语义上两者高度相关

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。