文本相似度计算python lda_借助LDA主题分析的短文本相似性计算 - 综述帖

本文探讨了如何使用LDA进行短文本相似性计算,介绍了显性分析与隐性分析方法,重点讲解了LDA算法的工作原理,并提及其他向量表示方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目标:针对给定输入文本与文本库,计算得出文本库中与输入文本最相似的文本

对于人类,两句话的相似性一般都从语义上进行考虑,大白话说就是”这两句话说的是同一件事儿/同一个意思“。相似的句子可能会有相似的语法。

对于当前的计算机来说,已经用标点符号等区分开了句子与句子,但如何理解、表达句子的意思是个难题,也就是需要人工定义语义的概念。另外,人类语言世界中的句子通常都有一定的使用环境,但到了计算机系统中全都统一存储为二进制,使得部分语义在”语言数字化“这一过程中丢失。(类比所有的模拟信号转化为数字信号都存在这样的问题。)

短文本是社交网络中更加流行的文本形式,特点在于长度短、特征稀疏、实时性强,在舆论监控、热点追踪上可以挖掘出更多有用的信息。短文本由于其特征稀疏、语义依赖强、不遵循语法等特点难以直接应用已有长文本处理技术进行分析。

文本分析主要分析方向为文本的特征提取、分类、相似度分析和情感分析等。其研究方法可以主要分为两种,基于句法-语义规则的理性方法、统计数学方法。

基于以上背景,短文本理解通常可以按显性分析和隐性分析两个角度进行划分:

显性分析方法是从人的角度解释性强的解释方法,包括词义、词性、句法、语义等。这种方法需要有知识库进行匹配。词汇角度的分析上,已有的研究包括WordNet、Hownet、哈工大同义词词林等;ESA算法构建一个词与文本的共现矩阵,词向量的每一个维度代表一个明确的知识库文本,如Wikipedia文章或标题。句法角度的分析,已有研究包括哈工大LTP平台,Stanford Parser,Berkeley Parser,并通常与词汇分析共同使用。

隐性分析方法是将文本转化为向量表示,从统计规律上弥补因文本数字化导致

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值