java 向量相似度计算 tf-idf_文本相似度算法——空間向量模型的余弦算法和TF-IDF...

2.基於空間向量的余弦算法

2.1算法步驟

預處理→文本特征項選擇→加權→生成向量空間模型后計算余弦。

2.2步驟簡介

2.2.1預處理

預處理主要是進行中文分詞和去停用詞,分詞的開源代碼有:ICTCLAS。

然后按照停用詞表中的詞語將語料中對文本內容識別意義不大但出現頻率很高的詞、符號、標點及亂碼等去掉。如“這,的,和,會,為”等詞幾乎出現在任何一篇中文文本中,但是它們對這個文本所表達的意思幾乎沒有任何貢獻。使用停用詞列表來剔除停用詞的過程很簡單,就是一個查詢過程:對每一個詞條,看其是否位於停用詞列表中,如果是則將其從詞條串中刪除。

76484415d85ebf8422c569d01faa7410.gif

圖2.2.1-1中文文本相似度算法預處理流程

2.2.2文本特征項選擇與加權

過濾掉常用副詞、助詞等頻度高的詞之后,根據剩下詞的頻度確定若干關鍵詞。頻度計算參照TF公式。

加權是針對每個關鍵詞對文本特征的體現效果大小不同而設置的機制,權值計算參照IDF公式。

2.2.3向量空間模型VSM及余弦計算

向量空間模型的基本思想是把文檔簡化為以特征項(關鍵詞)的權重為分量的N維向量表示。

這個模型假設詞與詞間不相關(這個前提造成這個模型無法進行語義相關的判斷,向量空間模型的缺點在於關鍵詞之間的線性無關的假說前提),用向量來表示文本,從而簡化了文本中的關鍵詞之間的復雜關系,文檔用十分簡單的向量表示,使得模型具備了可計算性。

在向量空間模型中,文本泛指各種機器可讀的記錄。

用D(Document)表示文本,特征項(Term,用t表示)指出現在文檔D中且能夠代表該文檔內容的基本語言單位,主要是由詞或者短語構成,文本可以用特征項集表示為D(T1,T2,…,Tn),其中Tk是特征項,要求滿足1<=k<=N。

下面是向量空間模型(特指權值向量空間)的解釋。

假設一篇文檔中有a、b、c、d四個特征項࿰

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值