我所在的网站算是一个大型网站,百度收录3000万,每天百度爬虫抓取总次数在500w次左右,单页的百度收录率 80%,看起来已经是一个相当不错的数据,但分析一下详细的日志文件,还是可以发现一些问题,
1.大型网站的列表页为了方便用户查找所需信息,通常会设置多重的筛选条件(Facet Navigation),但爬虫并没有智能到可以自主判断哪些条件可以组合,哪些条件组合起来没有意义,只要在代码里面有链接就会去抓取,导致百度爬虫耗费了大量资源在列表筛选页上。分析了一个月的数据,发现百度的抓取量有30%消耗在列表页,但是列表页带来的百度自然流量仅占所有百度自然流量的2%,所以对网站的列表页来说,爬虫的投入产出非常低。