360搜索结果页html代码,360搜索抓取完全封闭网页揭秘

第一步,百度工程师制作一个保存在服务器个人文件夹下的简单网页,没有任何外链,由于搜索引擎爬虫只能通过链接爬行网页,因此这个网页是完全封闭的,不可能被搜索引擎抓取到。

第二步,百度工程师用360浏览器打开了这个网页。并通过各种搜索引擎不间断试验,显示网页均未被抓取。

但约2小时之后,却发生了令人大跌眼镜的事情。百度工程师试着在360搜索中输入以上关键词,结果这个网页赫然出现在搜索结果第一行,并可以直接点击进入浏览网页内容。再换百度、谷歌、搜狗、搜搜等其他浏览器搜索相同内容,却仍然无法返回相应网页。

为什么一个完全封闭的网页竟然能被360搜索引擎抓取到,并呈现在搜索结果之中?百度工程师解释道,核心原因就在于他曾用360浏览器打开过这个网页。

在360浏览器的隐私策略中,注明了360安全浏览器会在用户的计算机上记录有关浏览历史记录的实用信息。这些信息包括:浏览历史记录、用户访问过的大部分网页的的屏幕截图、Cookie或网络存储数据、访问网站时留下的临时文件、地址栏下拉列表、最近关闭的标签列表、关闭窗口时的未关闭标签列表、使用内置安全下载器的下载记录、浏览器插件中保存的内容等。

360搜索的爬虫正是根据360浏览器抓取的数据信息,再去相应的网页爬取内容快照。由此,360搜索就能成功抓取一个完全封闭的网页。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值