Search engine discovery/Reconnaissance (OWASP-IG-002) 搜索引擎发现/侦查
本节介绍了如何获得谷歌的索引并查看谷歌缓存中是否已经移除相关的网页内容。
一旦 Googlebot 已完成抓取,搜索引擎会以网页上的 tag 和相关属性作为索引,如 < 标题 > ,以返回相关的搜索结果。
如果 robots.txt 文件没有在 web 网站的生命周期内更新,那么可能 google 返回的结果不会包含其网页内容。
Therefore, it must be removed from the Google Cache.
因此, googl 缓存中应该移除该网页内容。
如何测试呢?
google也提供了Google SOAP Search API,可以调用以实现google搜索、google快照和google拼写。
OWASP也有一个项目和这个相关。 http://www.owasp.org/index.php/Category:OWASP_Google_Hacking_Project
相关链接:
[1] "Google 101: How Google crawls, indexes, and serves the web" - http://www.google.com/support/webmasters/bin/answer.py?answer=70897
[2] "Advanced Google Search Operators" - http://www.google.com/help/operators.html
[3] "Google SOAP Search API" - http://code.google.com/apis/soapsearch/reference.html#1_2
[4] "Preventing content from appearing in Google search results" - http://www.google.com/support/webmasters/bin/topic.py?topic=8459
使用 site 高级搜索选项,可以将搜索结果限制在特定的范围内。
如图所示:
点cached,或者查看缓存,可以看到这个站点在google上的缓存内容