之前去当TA的时候,有人问了谷歌演讲的工程师这个问题。其实人家负责的不是这个模块,也不一定清楚的。那位工程师提到可以自动注册帐号实现登陆再抓取。当然,这在理论上是可行的,不过实际中不可操作。毕竟:
- 论坛是要防一些无聊的人弄机器人自动注册然后发广告。有些会加上验证问题,邀请码,新手论坛规则测试什么的。
- 有些帖子除了要注册,而且还要积分达到一定程度才能看的。
我觉得是论坛程序本身来提供搜索引擎优化比较靠谱,毕竟搜索引擎是强势,网站需要从搜索引擎获取流量。而且网站自定义的访问规则可以千变万化,搜索引擎是搞不定的。
有做过web开发的应该都知道网站如果要区分访问是来之搜索引擎,还是个人,有一些特征可以区别:
- ip地址。
- user-agent。
通常来说用user-agent来判断会方便一点,因为ip这东西变化会大一点,而且谁知道谷歌到底有多少ip呢。虽然用ip也可以反向查询域名。
那动手试试吧。我有一些apache访问日志抓取到了google的spider的user-agent,把浏览器的user-agent改成该字段就行了。不过搜索插件的时候发现有更方便的工具可以直接用,firefox 下的 user agent switcher
安装完后再菜单栏可以找到
搜索资料的时候发现:
搜索引擎是可以搜索到帖子内容的哦
一点击进去,坑爹啊,要注册 找点资料如果一个网页就要注册一个帐号那部的累死人啊。把user agent改成googlebot试试。
图就不截了,方便好多。当然,如果每个人都是程序员,那现在网络很多秩序会被打乱的。