为什么搜索引擎能索引到需要注册才能访问的论坛帖子

之前去当TA的时候,有人问了谷歌演讲的工程师这个问题。其实人家负责的不是这个模块,也不一定清楚的。那位工程师提到可以自动注册帐号实现登陆再抓取。当然,这在理论上是可行的,不过实际中不可操作。毕竟:

  1. 论坛是要防一些无聊的人弄机器人自动注册然后发广告。有些会加上验证问题,邀请码,新手论坛规则测试什么的。
  2. 有些帖子除了要注册,而且还要积分达到一定程度才能看的。

我觉得是论坛程序本身来提供搜索引擎优化比较靠谱,毕竟搜索引擎是强势,网站需要从搜索引擎获取流量。而且网站自定义的访问规则可以千变万化,搜索引擎是搞不定的。

有做过web开发的应该都知道网站如果要区分访问是来之搜索引擎,还是个人,有一些特征可以区别:

  1. ip地址。
  2. user-agent。

通常来说用user-agent来判断会方便一点,因为ip这东西变化会大一点,而且谁知道谷歌到底有多少ip呢。虽然用ip也可以反向查询域名。


那动手试试吧。我有一些apache访问日志抓取到了google的spider的user-agent,把浏览器的user-agent改成该字段就行了。不过搜索插件的时候发现有更方便的工具可以直接用,firefox 下的 user agent switcher


安装完后再菜单栏可以找到


搜索资料的时候发现:

搜索引擎是可以搜索到帖子内容的哦羡慕


一点击进去,坑爹啊,要注册难过 找点资料如果一个网页就要注册一个帐号那部的累死人啊。把user agent改成googlebot试试。


大笑大笑大笑大笑大笑

图就不截了,方便好多。当然,如果每个人都是程序员,那现在网络很多秩序会被打乱的。安静


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值