统计学习方法—潜在语义分析

潜在语义分析(LSA)是无监督学习的一种方法,用于文本话题分析。它通过矩阵分解揭示文本与单词间的语义关系。首先介绍单词向量空间和话题向量空间,接着详细阐述了使用矩阵奇异值分解进行LSA的过程,最后提及非负矩阵分解在话题分析中的应用。
摘要由CSDN通过智能技术生成

潜在语义分析(latent semantic analysis, LSA)

  是一种无监督学习方法,主要用于文本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。

 单词向量空间与话题向量空间

  单词向量空间

  文本信息处理,例如信息检索、文本数据挖掘等核心问题都是对文本的语义内容进行表示,并进行文本之间的语义相似度计算。最简单的方法就是利用向量空间模型(VSM)。

VSM:基本想法是,给定一个文本,用一个向量表示该文本的“语义”,向量的每一维对应一个单词,其数值为该单词在文本中出现的频数或权值。文本集合中每一个文本都表示为一个向量,存在于一个向量空间中;向量空间的度量,如内积或标准化内积表示文本之间的“语义相似度”。

  • 简单例子:
    给定一个含有n个文本的集合 D = { d 1 , d 2 , ⋯   , d n } D=\{d_1, d_2, \cdots, d_n\} D={ d1,d2,,dn},以及在所有文本中出现的m个单词的集合 W = { w 1 , w 2 , ⋯   , w m } W=\{w_1, w_2,\cdots,w_m\} W={ w1,w2,,wm},将单词在文本中出现的数据用一个单词-文本矩阵(word-document matrix)表示,记作 X X X:
    X = [ x 11 x 12 ⋯ x 1 n x 21 x 22 ⋯ x 2 n ⋮ ⋮ ⋮ x m 1 x m 2 ⋯ x m n ] (1) X=\left[ \begin{matrix} x_{11} & x_{12} &\cdots & x_{1n}\\ x_{21} & x_{22} &\cdots & x_{2n}\\ \vdots & \vdots & &\vdots\\ x_{m1} & x_{m2} &\cdots & x_{mn} \end{matrix} \right] \tag{1} X=x11x21xm1x12x22xm2x1nx2nxmn(1)
    这是一个 m × n m \times n m×n矩阵,元素 x i j x_{ij} xij表示单词 w i w_i wi在文本 d j d_j dj中出现的频数或权值。该矩大概率是一个稀疏矩阵。

权值通常用单词频率-你文本频率(term frequency-inverse document frequency,TF-IDF) T F I D F i j = t f i j t f ∗ j l o g d f d f i , i = 1 , 2 , ⋯   , m ; j = 1 , 2 , ⋯   , n TFIDF_{ij} = \frac{tf_{ij}}{tf_{*j}}log\frac{df}{df_i}, i=1,2,\cdots , m; j=1,2, \cdots ,n TFIDFij=tfjtfijlogdfidf,i=1,2,,m;j=1,2,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值