这两天用google试图搜索几篇文档,搜索结果真是令人哭笑不得。因为前面的起码10篇文档有时候甚至是几页文章几乎都是同一篇文档的翻版,而出处在哪里,早已淹没在这些垃圾信息中。而且随着转载,错误变得越来越多,其中明显不乏用自动机随意摘取的信息,而这个自动机也极其恶心和初级,抓取的文章格式全部乱套,就这么随意贴在网站上。真的不明白为什么有做技术的人会喜欢搞这样的网站,那不就是一个没人看的垃圾堆吗?
能排在前面的通常都是有点规模的网站,后来想了想才明白,这样的信息对这种网站其实仅仅是提升点击率的工具而已,他们的目的仅仅是让搜索引擎找到它。这样的信息对于这种网站来说其实意义不大,因为很明显它的主业不在此。不过难道他们不认为搜到这样信息的人会上一两次当,以后不是更失去了对这种网站的信任吗?反过来对于搜索引擎来说,其实这也算是一个漏洞,降低了搜索的价值。从这个意义上说,现在的搜索还是比较初级的,如果有一天能加上可信度,相关性和评价之类的信息,那么搜索的意义就会又一次大大提升。