1、简介
搜索引擎的排名主要取决于以下因素:
- 内容相关度(百度搜索大概占比<40%)
- 用户行为(用户点击数、跳出、浏览时长等等,占比未知 )
- 网站技术参数(是否有gzip、nofollow、alt 以及各类标签是否正确使用等等,占比应该较小)
- 域名积累(包括域名年龄、外链、历史流量等,占比应较大)
2、优化思路
本质上排名的优化是一种竞争。和该关键词搜索结果中的其他网站竞争。
竞争的点无非就是 前面提到的这4大点。而其中相对来说比较好把控的也只有内容相关度以及网站技术参数了。
其他的需要长时间的优化和积累才能达到。
3、如何优化
如何优化内容相关度呢?
这就需要知道搜索引擎是如何评判内容与搜索词的相关度了。
查了些资料,得知目前主流的相关度算法主要有 TF-IDF 、BM25 等。
TF-IDF 介绍
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。
而BM25 则是针对TF-IDF 的收敛性改进,增加了k,b参数,使得词频的影响达到一定量级后趋于收敛。
简单解释一下,关键词的优化其实就是 增减和搜索词有关的词语在整个内容中的数量!
只是要弄清楚应该增减什么词,增减的范围又是多少!
参考搜索词目前的排名,并且分析排名靠前网站的词语布局
比如提高“深圳租房”这个搜索词你的网站排名,那么从关键词优化的角度,第一步是要了解这个搜索词目前的排名是怎样的,排名靠前的网站,对于关键词又是怎么布局的。
当然去人工的一个个分析,工作量实在太大了,所以我自己做了一个分析工具,抓取目标搜索词的结果,然后分析各自的关键词布局。
横向对比,详细地分析出具体可操作的方案
后面发现以上还不够,这样对比起来还是工作量大,所以又开发了预测功能,直接将搜索词和你自己的html源码输入进来,然后预测,系统给出直观的优化操作方案。
后续还规划了一个预测功能,就是将海量去分析各种搜索词,将结果保存下来, 然后用机器学习算法去分类,能够进一步得知这些特征的重要性排序,然后从高到低根据重要程度去优化。但是本人太懒了,这步目前还没有时间去弄,估计过年期间再写一写吧。
因为搜索引擎的具体算法,对我们来说就是个黑盒子,不知道里面会根据具体哪些特征去评分,所以我的思路就是将目前我们能手工提取到的特征,比如说 词的密度,内容的篇幅,相关词的密度等等,当然还有标签:排名值,放进机器学习算法里跑一跑,这样当曲线拟合,召回率到一定程度的时候,就可以大概预测出你的网站当前的内容 能排多少名了。
具体算法我也还在思考,目前觉得应该以可解释性为主,比如随机森林,决策树一类的,这样能够知道特征之间的重要程度,如果纯粹只是要输出个排名预测结果,用深度学习神经网络一类的算法也成。