网页搜索基础知识

最新推荐文章于 2024-11-11 22:41:20 发布

新发现FLY

最新推荐文章于 2024-11-11 22:41:20 发布

阅读量162

点赞数

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/lkf009/article/details/84210983

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

转自：http://www.cnblogs.com/zeuslin/archive/2008/06/01/1211461.html

今天认真地学习网页搜索盯着的基础知识，收获不少，摘来要点如下：

提交搜索结果包含三个主要过程：
抓取：goolebot (robot,spider,bot，爬虫)使用算法流程：计算机程序会确定要抓取的网站、抓取频率以及从每个网站中获取的网页数量。在抓取的过程中会生成一个网页网址列表，然后程序通过网址访问网站抓取信息，而在访问的过程中又会不断发现新的网址来丰富原有的网页网址列表。
编制索引：将抓取过来的信息分类存好。
提供：提供涉及排序问题，主要标准之一——重要性。重要性越大排在越前边。重要性是通过这个网页被其他网页链接的多少。

动态网页：
理论上spider会索引动态生成的网页，包括 .asp 页、.php 页以及网址上有问号的网页。不过，这些网页可导致抓取工具出错，因此可能会被忽略。原因是那些问号可能产生大量的网页，傻傻的爬虫程序进去以后就出不来了，程序进入一个死循环，从而会消耗较多的带宽资源。所以变聪明的爬虫对这些有了防范之心，从而也导致抓取的质量不高。所以从这角度可以得到验证我之前学到的另外两个理论：A，伪静态技术，主要就是将动态页网址里边的问号隐藏，给动态网页套上一个html的网址。网址对爬虫友好。B，一个网站生成太多的网址会影响到收录的质量的。这是spider所以防范的。

网页参数方面：
1、不要使用 &ID= 作为您网址的参数
2、动态网页有助于缩短参数长度并减少参数数目。通过截掉不必要的参数尽量缩短网址。
3、建议网址中使用标点符号，网址中使用连字符 (-) 而尽量避免使用下划线 (_）
4、尽可能避免在网址中使用会话 ID，建议您使用 Cookie 代替

链接方面：
1、如果您永久重定向一个网页至另一个网页，请使用永久重定向 (301)。
2、尽可能使用绝对链接，而不是相关链接。（例如，当与您网站上的另一网页链接时，请链接到 www.example.com/mypage.html 而不要仅仅链接到 mypage.html）。
3、使用 HTML 构建网站结构和导航是一个不错的方法
4、使用ajax技术时，规范的ajax链接可以照顾到爬虫，还有那些不支持js的设备。举个例如下<a href="ajax.htm?foo=32" onClick="navigate('ajax.html#foo=32');return false">foo 32</a>

其他：
1、确保您的标题标记准确且具有描述性，而且每个网页均有一个描述性标题标记。将标题标记放到可以展现各网页最重要主题的位置。但太多的描述与关键字，可能会被认为是垃圾网站。
2、通过 iFrame 显示的内容可能不会被编入索引
3、帮助收录的Sitemap：网站地图可以帮助你的网站更全更快速地为搜索引擎所收录。（不然有些页面隐藏了些可能就会被spider忽略掉）

ps:加大的绿色有字体表示建议与推荐的处理方法，黄色底纹的表示危险，不建议用~~