今天来对百度的分词进行一下深入的研究,我大概地总结出了以下这么几点:
1、百度分词是根据内容中,第一次出现关键词相关词为标准来分的。例如”今日新开热血江湖sf“这个词
如果你的正文中第一个出现的是”今日“这个词,那么你的页面上的关键词就会被拆分成”今日”和“新开热血江湖sf“两个词,标题中一定要包含关键词,但不一定要完全匹配,但内容中出现的关键词是要跟百度分词完全匹配的,在完全匹配中又会根据文件URL路径的深度来进行排序,在关键词都完全匹配的情况下,比如说目录比文件有优先权,根目录下的文件要比二级目录下的文件有优先权,完全匹配的会排在前面,然后再是部分匹配的。
收藏到:
Del.icio.us