泛统计理论初探——文本挖掘中的词袋模型

最新推荐文章于 2022-03-01 19:08:50 发布

喷火龙与水箭龟

最新推荐文章于 2022-03-01 19:08:50 发布

阅读量590

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘机器学习自然语言处理概率论矩阵

本文链接：https://blog.csdn.net/qq_26727101/article/details/104211134

版权

本文介绍了文本挖掘中的词袋模型，探讨了如何通过TF-IDF公式来挖掘文章特征，强调了IDF在衡量词语重要性上的作用。同时指出词袋模型的局限性，如忽视上下文语义和词语顺序，以及在处理多字词语时可能出现的问题。对于初学者，理解词频和TF-IDF公式对后续深入学习自然语言处理至关重要。

摘要由CSDN通过智能技术生成

数据挖掘-初探文本挖掘

文本挖掘之词袋模型
在我们开始接触文本挖掘的时候，一般都会有疑问，什么是文本挖掘，作者认为可以通过文本挖掘来得出文章的主题、特征等，也可以通过当前的词义、语义、语境等上下文信息进行预测，文本挖掘的用处十分广泛，比如比较两篇文章的风格判断作者是否同一个人，比如通过RNN、LSTM等模型生成诗歌、散文等。而我们最早接触的文本挖掘，其实是是通过分词开始进行学习的，即把一篇文章分为一组词汇和词汇出现的次数构成的词频表。以中文为例，组成文章的最小单位是字和词，所以在接触一篇文章的时候，可以先使用分词模型来进行切割，对文章出现的高频词进行分析，发现文章的某些特征。
在这里插入图片描述
那么我们在本次文章中对常见的词袋模型进行介绍，通过对词频来构建指标，使得文章的特征能够被挖掘出来，同时那些虚词和常见的无意义词语不会影响文本挖掘。这个词袋模型实际上就是不管词语出现的先后顺序，而只对文字的频数来进行分析，常见的衡量公式就是TF-IDF公式，公式如下：
TF-IDF(w,A)=TF(w,A)*IDF(w)
我们把w记作某个词语，比如有5个词语，那么就是w1,w2,w3,w4,w5以此类推，我们把A记作某篇文章，比如有3篇文章，那么就是A1,A2,A3以此类推。其中TF函数就是代表某个词语w在某篇文章A的出现频率，比如词语“牛肉”在一篇“牛肉好吃吗？”的文章中出现了30次，所有的词语在文章中出现150次，那么此时TF(w,A)= T