数据挖掘-初探文本挖掘
文本挖掘之词袋模型
在我们开始接触文本挖掘的时候,一般都会有疑问,什么是文本挖掘,作者认为可以通过文本挖掘来得出文章的主题、特征等,也可以通过当前的词义、语义、语境等上下文信息进行预测,文本挖掘的用处十分广泛,比如比较两篇文章的风格判断作者是否同一个人,比如通过RNN、LSTM等模型生成诗歌、散文等。而我们最早接触的文本挖掘,其实是是通过分词开始进行学习的,即把一篇文章分为一组词汇和词汇出现的次数构成的词频表。以中文为例,组成文章的最小单位是字和词,所以在接触一篇文章的时候,可以先使用分词模型来进行切割,对文章出现的高频词进行分析,发现文章的某些特征。
那么我们在本次文章中对常见的词袋模型进行介绍,通过对词频来构建指标,使得文章的特征能够被挖掘出来,同时那些虚词和常见的无意义词语不会影响文本挖掘。这个词袋模型实际上就是不管词语出现的先后顺序,而只对文字的频数来进行分析,常见的衡量公式就是TF-IDF公式,公式如下:
TF-IDF(w,A)=TF(w,A)*IDF(w)
我们把w记作某个词语,比如有5个词语,那么就是w1,w2,w3,w4,w5以此类推,我们把A记作某篇文章,比如有3篇文章,那么就是A1,A2,A3以此类推。其中TF函数就是代表某个词语w在某篇文章A的出现频率,比如词语“牛肉”在一篇“牛肉好吃吗?”的文章中出现了30次,所有的词语在文章中出现150次,那么此时TF(w,A)= T