1.3 有哪些文本表示模型?它们各有什么优缺点?

本文探讨了文本表示模型如词袋模型、TF-IDF、主题模型和词嵌入,阐述了它们的原理和优缺点。同时,强调了深度学习在自动特征工程中的作用,以及卷积神经网络和循环神经网络在文本表示中的优势。
摘要由CSDN通过智能技术生成

1.3 有哪些文本表示模型?它们各有什么优缺点?

场景描述

文本是一类非常重要的非结构化数据如何表示文本数据一直是机器学习领域的一个重要研究方向。

知识点

  • 词袋模型(Bag of Words)
  • TF-IDF(Term Frequency-Inverse DocumentFrequency)
  • 主题模型(Topic Model)
  • 词嵌入模型(Word Embedding)

问题:有哪些文本表示模型?它们各有什么优缺点?(难度:2颗星)

分析与解答
  • 词袋模型和N-gram模型

    最基础的文本表示模型是词袋模型

    顾名思义,就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对应的权重则反映了这个词在原文章中的重要程度。常用TF-IDE来计算权重,公式为
    T F − I D F ( t , d ) = T F ( t , d ) × I D F ( t ) ( 1.5 ) TF-IDF(t,d)=TF(t,d)×IDF(t) (1.5) TFIDF(t,d)=TF(t,d)×IDF(t)(1.5)
    其中TF(t,d)为单词t在文档d中出现的频率,IDF(t)是逆文档频率,用来衡量单词t对表达语义所起的重要性,表示为
    I D F ( t ) = l o g [ ( 文章总数 ) / ( 包含单词 t 的文章总数 + 1 ) ] ( 1.6 ) IDF(t)=log[(文章总数)/(包含单词t的文章总数+1)] (1.6) IDF(t)=log[(文章总数)/(包含单词t的文章总数+1)](1.6)
    直观的解释是,如果一个单词在非常多的文章里面都出现,那么它可能是一个比较通用的词汇,对于区分某篇文章特殊语义的贡献较小,因此对权重做一定惩罚

    N-gram模型

    问题:将文章进行单词级别的划分有时候并不是一种好的做法,比如英文中的natural language processing(自然语言处理)一词,如果将natural,language,processing 这3个词拆分开来,所表达的含义与三个词连续出现时大相径庭。

    解决:通常,可以将连续出现的n个词(n≤N)组成的词组(N-gram)也作为一个单独的特征放到向量表示中去,构成N-gram模型。另外,同一个词可能有多种词性变化,却具有相似的含义。在实际应用中,一般会对单词进行词干抽取(Word Stemming)处理,即将不同词性的单词统一成为同一词干的形式。

  • 主题模型

    主题模型用于从文本库中发现有代表性的主题(得到每个主题上面词的分布特性),并且能够计算出每篇文章的主题分布

  • 词嵌入与深度学习模型

    词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维空间(通常K=50~300维)上的一个稠密向量(DenseVector)。K维空间的每一维也可以看作一个隐含的主题,只不过不像主题模型中的主题那样直观。

    问题:由于词嵌入将每个词映射成一个K维的向量,如果一篇文档有N个词,就可以用一个N×K维的矩阵来表示这篇文档,但是这样的表示过于底层。

    解决:在实际应用中,如果仅仅把这个矩阵作为原文本的表示特征输入到机器学习模型中,通常很难得到令人满意的结果。因此,还需要在此基础之上加工出更高层的特征

    深度学习模型

    在传统的浅层机器学习模型中,一个好的特征工程往往可以带来算法效果的显著提升。而深度学习模型正好为我们提供了一种自动地进行特征工程的方式,模型中的每个隐层都可以认为对应着不同抽象层次的特征。从这个角度来讲,深度学习模型能够打败浅层模型也就顺理成章了。

    卷积神经网络和循环神经网络的结构在文本表示中取得了很好的效果,主要是由于它们能够更好地对文本进行建模,抽取出一些高层的语义特征。与全连接的网络结构相比,卷积神经网络和循环神经网络一方面很好地抓住了文本的特性,另一方面又减少了网络中待学习的参数,提高了训练速度,并且降低了过拟合的风险。

参考文献:

《百面机器学习》 诸葛越主编

出版社:人民邮电出版社(北京)

ISBN:978-7-115-48736-0

2022年8月第1版(2022年1月北京第19次印刷)

  • 40
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值