泛统计理论初探——文本挖掘中的词袋模型

本文介绍了文本挖掘中的词袋模型,探讨了如何通过TF-IDF公式来挖掘文章特征,强调了IDF在衡量词语重要性上的作用。同时指出词袋模型的局限性,如忽视上下文语义和词语顺序,以及在处理多字词语时可能出现的问题。对于初学者,理解词频和TF-IDF公式对后续深入学习自然语言处理至关重要。
摘要由CSDN通过智能技术生成

数据挖掘-初探文本挖掘

文本挖掘之词袋模型
在我们开始接触文本挖掘的时候,一般都会有疑问,什么是文本挖掘,作者认为可以通过文本挖掘来得出文章的主题、特征等,也可以通过当前的词义、语义、语境等上下文信息进行预测,文本挖掘的用处十分广泛,比如比较两篇文章的风格判断作者是否同一个人,比如通过RNN、LSTM等模型生成诗歌、散文等。而我们最早接触的文本挖掘,其实是是通过分词开始进行学习的,即把一篇文章分为一组词汇和词汇出现的次数构成的词频表。以中文为例,组成文章的最小单位是字和词,所以在接触一篇文章的时候,可以先使用分词模型来进行切割,对文章出现的高频词进行分析,发现文章的某些特征。
在这里插入图片描述
那么我们在本次文章中对常见的词袋模型进行介绍,通过对词频来构建指标,使得文章的特征能够被挖掘出来,同时那些虚词和常见的无意义词语不会影响文本挖掘。这个词袋模型实际上就是不管词语出现的先后顺序,而只对文字的频数来进行分析,常见的衡量公式就是TF-IDF公式,公式如下:
TF-IDF(w,A)=TF(w,A)*IDF(w)
我们把w记作某个词语,比如有5个词语,那么就是w1,w2,w3,w4,w5以此类推,我们把A记作某篇文章,比如有3篇文章,那么就是A1,A2,A3以此类推。其中TF函数就是代表某个词语w在某篇文章A的出现频率,比如词语“牛肉”在一篇“牛肉好吃吗?”的文章中出现了30次,所有的词语在文章中出现150次,那么此时TF(w,A)= T

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值