对于SEOr每天面对的挑战来自于搜索引擎的排序算法,因为这个算法是对搜索词汇在结果页中排名到底的重要依据,并且搜索引擎通过构建一个可学习的模型来识别页面上的文本内容。
LDA算法- 主题建模&分析
LDA算法公式:
为了便于理解这里有个简化的形式:
我们来尝试解释一下,主题词的机会 = 该主题所在文档的出现频次 X 改主题词使用的频次 ;
Google会分析用户查询词汇与哪些主题是相关的,这些相关会通过描述词的周边属性来考察,例如:“桔子” 与它相关的属于水果,橙色的颜色属性等等这些内容都是它的相关联的。
LDA方法是非常强大的自动化学习算法,他扩展了关键词组合、复合文档间的关联。他已经在很多领域作出了杰出贡献。
贝叶斯定律 – 贝叶斯过滤方法被应用于反垃圾处理。他有效的降低了索引数据库杂质和词语的不准确性。
相关算法还包括:
- TF*IDF 权重公式,比粗糙的关键词密度等指标,可以更加准确影响到关键词排名因素。
- Followed IPs 这是我们最关心的对链接权重的考量,重点在于文本链接的价值。
- LDA Cosine 主题与页面相关性。
看一些简单的例子:
1、单一关键词
内容A包含关键词Batman,而内容B中不包含;显然搜索引擎很容易使用内容A参与排名。
2、关键词词组
关键词组合那个排名靠前,这要取决于两者那个更加相关,Wiggum与Chief相比 关键词Chief更加普遍(相关性广泛)因此内容A更容易被捕获。
备注:这个例子恰恰也说明了另外一个流行的关注指标-关键词密度,你知道怎样理解了:)
3、组合关键词(复合词)
搜索引擎的相关度(relevancy),看了内容大家很容易从内容B中的描述"Daily Planet" "Clark Kent" 就会联想到超人的主要特征,带着黑边眼镜的日报记者-克拉克 :)所以 很明显内容B相关性优于内容A。
4、主题模型
通过内容作为人的理解能力是可以看出很明显的相关,内容B描述的乐器- 一个女人在演奏这种乐器,但是搜索引擎没有这种经验和经历,没有相关联的关键词如内容A中的更加难以识别。但幸运的是,从LDA的算法中已经评估出来内容B优于内容A。这是一种强健的算法:)
-----
总结:
1、算法建立在用户体验基础之上的,我们用用户的思维来考虑问题。
2、搜索引擎也在着力解决这些问题,有可能仅仅是时间的问题。