经典统计语言模型

本文详细介绍了三种经典的统计语言模型:HAL、LSA和COALS,探讨了它们如何利用词的共现矩阵来表示词语,以及在解决词汇表示问题上的不同策略。HAL通过窗口大小调整权重,LSA采用词频-文档矩阵并进行熵归一化,随后进行SVD分解,而COALS则对HAL的共现矩阵进行相关性规范化和负值清除,以提高聚类效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

HAL, LSA, 与COALS

本文介绍三个经典统计语言模型, HAL,LSA, 与COALS.

拍拍脑袋想, 可以怎样表示一个词语?
1. 级级递增
e.g 表示百合
百合<花<植物<物体
2. 同义词
e.g 表示好
好, 不错,还行,棒棒哒……

这样的representation带来的问题:

  • 对于形容词, 同义词不能表示程度
  • 无新词的定义
  • 主观性
  • 难以量化词语相似度

为了解决这个问题, 1957年, Firth提出了之后统计NLP中的一个常用思想, 用一个词在句中的neighborhood表示该词。具体来说,

  1. Hyperspace Analogue to Language method (HAL)
    HAL (Lund & Burgess, 1996)方法可以用一个co-occurrence matrix, 表示任意两个词相关性。如图所示为一个window size=1的co-occurrence matrix结果:
    这里写图片描述
    这里window size 是指计算作用域。 比如window size=5就表示与一个词相邻5个词为作用域, weight随相邻词距离增大,从5到1递减。 根据co-occurrence matrix, 可得每个词有一个vector表示, 然后可以用Euclidean distance的倒数, 或 cosine&#x

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值