统计学习方法-潜在语义分析(LSA)-读书笔记

1、前言

文本数据挖掘中最简单的方法是利用向量空间模型(vector space model,VSM),也就是但词向量空间模型,创造一个单词-文本矩阵,矩阵中的值通常采用单词在文本中出现的频数或权值表示。它是一个稀疏矩阵
权值通常采用单词频率-逆文本频率(TF-IDF)表示,定义为
T F I D F i j = t f i j t f ⋅ j log ⁡ d f d f i TFIDF_{ij}=\frac{tf_{ij}}{tf\cdot _j}\log \frac{df}{df_i} TFIDFij=tfjtfijlogdfidf
t f i j tf_{ij} tfij是单词出现在文本中的频数, t f ⋅ j tf\cdot _j tfj是文本中出现的所有单词的频数之和, d f i df_i dfi是含有单词的文本数, d f df df是文本集合D的全部文本数。
由于自然语言单词具有一词多义性,多词一义性,所以基于单词向量的相似度计算存在不精确的问题。

2、LSA

单词-文本矩阵X可以近似的表示成单词-话题矩阵T与话题-文本矩阵Y的乘积形式。这就是潜在语义分析。
X = T Y X=TY X=TY

2.1矩阵奇异值分解算法

①构建单词-文本矩阵X,这是一个m*n矩阵,表示单词在文本中出现的频数或权值。
②截断奇异值分解。根据确定的话题个数k对矩阵X进行截断奇异值分解,左矩阵作为话题空间向量,对角矩阵与右矩阵的乘积作为文本在话题向量空间的表示。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值