一句话词性分析php,LSA - 潜在语义分析 - 如何在PHP中进行编码?

这一切看起来不错,直到最后一步。 SVD的通常表示法是返回三个矩阵A = USV *。 S是一个对角矩阵(意思是对角线上的所有零),在这种情况下,基本上给出了每个维度捕获原始数据的量度。数字(“奇异值”)将会下降,并且您可以查找有多少维度有用的下拉菜单。否则,你只需要选择一个任意数字N来表示需要多少维度。

这里我有点模糊。在降维空间中的术语(单词)的坐标或者是U或V,我认为取决于它们是否在输入矩阵的行或列中。另一方面,我认为这些字的坐标将是U的行,即U的第一行对应于输入矩阵的第一行,即第一个字。然后,您只需将该行的前N列作为缩小空间中的单词坐标。

HTH

更新:

到目前为止,这个过程并没有告诉你如何挑选标签。我从来没有听说过有人使用LSI来选择标签(机器学习算法可能更适合于任务,比如说决策树)。 LSI告诉你两个词是否相似。这是分配标签的很长一段时间。

有两个任务 - a)要使用哪组标签? b)如何选择最好的三个标签?我对LSI如何帮助您回答(a)没有太多的了解。您可以手动选择一组标签。但是,如果您使用LSI,标签可能应该是文档中出现的单词。然后,对于(b),您要挑选与文档中找到的单词最接近的标签。你可以尝试一些实现它的方法。选择与文档中任何单词最接近的三个标签,其中靠近标签的坐标(U中的行)与单词的坐标(U中的行)之间的余弦相似度(请参见维基百科)进行测量。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值