短文本分类或lda的分析(ZZ)(转载pennyliang (pennyliang),)

 

2008-11-16 20:21
来自水木,标题我给改了下
发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标 题: 总结一下我的一些提问和感想
发信站: 水木社区 (Sun Nov 16 08:19:10 2008), 站内


Latent Dirichlet Allocation(LDA)模型是近年来提出的一种具有文本主题表示能力的非监督学习模型。

rocchio算法,读作“Rockey-O”。
  
   LDA,就是将原来向量空间的词的维度转变为Topic的维度,这一点是十分有意义的。

   例如,如果一个文档A,包含电脑这个关键词,那么A向量化后可能是,比如电脑这个词是
   100万词汇中的第2维(便于举例),微机这个词是100万词汇中的第3维,维上的投影简单看作是tf,即文档中出现的次数。

   A={x,2,0,...,x} 表示文档A中电脑出现了2次.x表示出现次数不care
   B={x,0,3,...,x} 表示文档B中微机次数出现了3次。

   如果是用词做维度的向量空间,做聚类也好,分类也好,A和B在电脑和微机上的这种向量表示,机器理解为A和B完全在表示不同的意义。而事实上,如果在词的高维空间上看,电脑和微机的维是很近似的,正交性是很低的。
  
   如果能够将高维空间上,近义词或者表示接近的词的维度“捏“成一个维度,比如电脑和微机这两个词被捏成了第2维,但是每个词在这个维上的权重给与不同的度量(比如概率)。
   这样上诉例子变为

   A={x,2*pi,x,...x},pi表示电脑这个词到Topic2的转移概率。
   B={x,3*pj,x,...x}

   这样,A和B看上去在第二个Topic上显示了一定的相关性。

   由于Topic是被捏后的产物,每个Topic的正交性直观上看都很强,LDA开源的工具做出的结果可以把转移到TOpic最Top的那些词提取出来,都是十分相关或近似的词。而Topic与Topic之间显示出很大的差异性。

   短文本分类的商业价值是很大的,在视频分类,广告分类上都可以看作是短文本分类问题,我有幸做了一些这方面的工作,其中提到的短文本的扩展是很好的思路。

   问答系统商业价值也很巨大,特别是封闭领域的问答系统,可以拦截投诉,用户提问,降低人工成本。开放领域的问答系统商业上感觉前途有限,当然把搜索引擎的 搜索结果进一步精化的思路肯定是搜索引擎的一个方向,用户会越来越懒,搜索引擎已经让用户懒了一些,还需要让用户继续懒下去。

下面是baidu知道中有人对LDA的解释
lda是一个集合概率模型,主要用于处理离散的数据集合,目前主要用在数据挖掘(dm)中的text mining和自然语言处理中,主要是用来降低维度的。据说效果不错。

以下是在tm中对lda的定义:
Latent Dirichlet allocation (LDA) is a generative probabilistic model of a corpus. The basic idea is
that documents are represented as random mixtures over latent topics, where each topic is characterized
by a distribution over words.

We describe latent Dirichlet allocation (LDA), a generative probabilistic model for collections of
discrete data such as text corpora. LDA is a three-level hierarchical Bayesian model, in which each
item of a collection is modeled as a finite mixture over an underlying set of topics. Each topic is, in
turn, modeled as an infinite mixture over an underlying set of topic probabilities. In the context of
text modeling, the topic probabilities provide an explicit representation of a document.

其实它还可以用在别的方面,早期是被用在自然语言处理的文本表示方面。因为他提供了一个理解相关词为什么在同一文档出现的框架解释模型。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值