词共现网络

今天看三篇文章:

一,实时词共现的微博话题发现

话题分布的两种方法,LDA(概率)和聚类。其中,wordgraph就是聚类方法,结合single-pass过程,基于信息的流时序特征和上下文相关度,探听新话题的产生和话题的演变。这篇文章基于图模型,词共现图和single-pass思想结合。词共现网络的构建基于单词x,y同时出现在一句话中,即现有单词集合和词关系矩阵,结合时间系数权重计算。

构造词共现网络;

single-pass话题聚类

热度计算-总量比重,增长率

总结:创新不足啊

 

二,Learning Latent Topics from the Word Co-occurrence Network

考虑了BTM模型,B-biterm,双词话题模型,先使用hard k-clique方法在全图中找到anchor单词,然后利用soft clique找到最大权重边。

基本知识:Anchor Word Algorithm (AWA),anchor selection and recovery,假设至少存在一个特殊单词区别每个话题。首先构建共现矩阵(文档级别),找到anchor,然后利用贝叶斯方式,KL散度等得到C话题分布。

这里,利用BTM构建矩阵Q,然后考虑anchor 不应该出现在一起,即anchor集合点之间的连接最小。将联合概率小于阈值的节点放入全图,然后利用k-clique找出k个值。clique,所有节点互联。最后利用贪心算法,计算每个话题分布,依然k-clique(没看懂)

 

三,Using Word Embedding to Evaluate the Coherence of Topics from Twitter Data(利用词嵌入方式评估twitter数据的话题连续性-一致性)

利用word embedding的方式对话题的一致性进行评估,和PMI,LSAT对比(不熟)。

文章和Word-pair无关,不必在意

 

PMI(Pointwise Mutual Information)这个指标来衡量两个事物之间的相关性(比如两个词)。其原理很简单,公式如下:


 

在概率论中,我们知道,如果x跟y不相关,则p(x,y)=p(x)p(y)。二者相关性越大,则p(x,y)就相比于p(x)p(y)越大。用后面的式子可能更好理解,在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x),自然就表示x跟y的相关程度。 

这里的log来自于信息论的理论,可以简单理解为,当对p(x)取log之后就将一个概率转换为了信息量(要再乘以-1将其变为正数),以2为底时可以简单理解为用多少个bits可以表示这个变量

 

潜语义分析(Latent SemanticAnalysis)源自问题:如何从搜索query中找到相关的文档。当我们试图通过比较词来找到相关的文本时,存在着难以解决的局限性,那就是在搜索中我们实际想要去比较的不是词,而是隐藏在词之后的意义和概念。潜语义分析试图去解决这个问题,它把词和文档都映射到一个‘概念’空间并在这个空间内进行比较(注:也就是一种降维技术)。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
预设高频词数是指在文本分析中,我们预先选取出现频率较高的词语作为关键词,以便更好地理解文本的特点和主题。通常,我们会根据实际需求设置不同的高频词数,比如选取出现频率前100个、200个、500个甚至1000个词语作为关键词。 一旦确定了高频词数,我们就可以计算词共现矩阵,以描述这些词语之间的关系。词共现矩阵是一个二维矩阵,其中每行和每列分别代表一个高频词,而矩阵中的每个值则表示对应的两个高频词共同出现的次数。通过计算词共现矩阵,我们可以了解这些高频词之间的联系,例如它们是否常常同时出现在文本中,或者它们是否经常在相似的语境中出现。 为了更好地可视化这些关系,我们可以借助Gephi软件绘制共现网络。Gephi是一款开源的网络可视化软件,它可以帮助我们将复杂的数据转化为易于理解和分析的图形。在绘制共现网络时,我们需要将词共现矩阵导入Gephi,并对其进行处理,以便将高频词之间的关联关系转化为节点和边的形式。节点代表一个高频词,而边则代表两个高频词之间的共现关系。通过对网络图进行布局、颜色等调整,我们可以更好地理解高频词之间的联系,并发现它们之间的潜在规律和模式。 总之,预设高频词数、计算词共现矩阵以及借助Gephi绘制共现网络,是一种有效的文本分析方法,可以帮助我们更好地理解文本内容,并发现其中的规律和主题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值