动态网站的搜索引擎策略

原创 2004年10月07日 20:11:00
动态网站的搜索引擎策略

摘要:动态网站丰富了网站的功能,但是对于搜索引擎来说,情况就不同了,动态页面是在用户“输入内容”或者进行“选择”时动态生成的,但是搜索引擎的“搜索机器人”无法“输入”和“选择”。另外,搜索引擎要避免“搜索机器人陷阱(spider traps)”的脚本错误。



一、动态网站的出现和优势



  最早互联网出现时,站点内容都是以HTML静态页面形式存放在服务器上,访问者浏览到的页面都是这些实际存在的静态页面。随着技术的发展,特别是数据库和脚本技术PERL、ASP、PHP和JSP的发展,越来越多的站点都开始采取动态的页面发布手段。比如,我们在GOOGLE.COM上搜索一个内容,得到的搜索结果页面文件"本身"在GOOGLE服务器上并不存在,而是通过程序在我们输入搜索内容时调用后台数据库实时生成的,也就是说,这些结果页面是动态的。



  静态页面的站点只涉及文件的传输问题,而动态站点则复杂得多,用户和站点之间出现大量的交互,网站不再仅仅是内容的发布,而是成为了一种"应用(Application)",是软件业向互联网上的扩张,从软件的角度看,动态站点是逻辑应用层和数据层的分离,数据库负责站点数据的存储管理,而ASP、PHP、JSP等负责处理站点的逻辑应用。这样做的好处除了增加很多交互功能外,更重要的是站点的维护、更新和升级都方便了许多。可以说,没有动态网站技术,目前互联网上的这些超大型站点就不可能出现。



二、搜索引擎抓取动态网站页面时面临的问题



  从用户的角度看,动态网站非常不错,丰富了站点的功能,但是对于搜索引擎来说,情况就不同了。(关于搜索引擎和分类目录的区别,以及搜索引擎的工作原理,请? "了解搜索引擎"http://www.emarketer.cn/em/expert/45.htm)



  根本的问题在于"输入"和"选择",动态页面是在用户"输入内容"或者进行"选择"时动态生成的,但是搜索引擎的"搜索机器人"无法"输入"和"选择"。比如我们要在当当书店站点查看冯英健的《网络营销基础与实践》一书,介绍页面是动态生成的,URL地址是:http://www.dangdang.com/product_detail/product_detail.asp?product_id=493698
这里在"?"后面的product_id参数值需要我们输入的,"搜索机器人"可以通过链接找到http://www.dangdang.com/product_detail/product_detail.asp 页面,但是它无法输入"?"后面的product_id参数值,从而无法抓取这个页面文件。



  另外,对于通过链接达到这种带"?"的页面,技术上搜索引擎可以抓取,但是一般情况下搜索引擎选择不去抓取,这是为了避免一种叫"搜索机器人陷阱(spider traps)"的脚本错误,这种错误会让搜索机器人进行无限循环的抓取,无法退出而浪费时间。



三、动态网站的搜索引擎策略



  动态网站要被搜索引擎抓取,可以采用内容发布系统软件将动态站点转化成静态页面,这种办法对于页面发布后变动少的站点比较合适,比如一些新闻类的站点(如新浪的新闻中心:http://news.sina.com.cn/ )。



  一般的动态网站可以通过下面的办法让搜索引擎抓取:
首先,我们要让动态页面的URL地址中没有"?",让动态页面看上去象"静态页面"。看看下面这个页面http://www.amazon.com/exec/obidos/tg/detail/-/043935806X/ ,这明显是一个动态页面,但是URL地址看上去却象"静态页面"。针对不同的动态技术可以采用下面技术实现:



  ·对于采用ASP技术的动态页面Exception Digital公司提供一种工具叫着XQASP(http://www.xde.net/products/product_xqasp.htm )可以将"?"替换为"/"。
  ·对于采用ColdFusion技术的站点,需要重新配置服务器上的ColdFusion,用"/"代替"?"将参数传输到URL,更详细的信息请见http://coldfusion.com/ 站点。
  ·对于使用Apache服务器的站点,可以使用rewrite模块将带参数的URL地址转换成搜索引擎支持的形式,该模块mod_rewrite在Apache服务器中不是缺省安装的,详细的信息请见http://httpd.apache.org/docs/mod/mod_rewrite.html 。



  对于其他的动态技术也能找到对应的方法改变URL的形式。



  然后,要创建一些静态页面指向这些动态页面(以改变过的URL链接)。
前面说过,搜索引擎机器人并不会自己"输入"参数,所以要让上面这些动态页面被搜索引擎抓取,我们还需要告诉机器人这些页面的地址(也就是参数)。我们可以创建一些静态的页面,一般在网络营销中称? "gateway page"(入口页面),这些页面上有大量指向这些动态页面的链接。



  将这些入口页面的地址提交到搜索引擎,这些页面和链接的动态页面(改变过URL形式)就能都被搜索引擎抓取了。



四、搜索引擎对动态网站支持的改进



  在我们调整动态站点适应搜索引擎的同时,搜索引擎也在发展。到目前为止,绝大多数的搜索引擎还不支持动态页面的抓取,但是GOOGLE、HOTBOT等和国内的百度开始尝试抓取动态网站页面(包括? "?"的页面),这就是我们现在在这些搜索引擎进行搜索时,结果中出现动态链接的原因。



  这些搜索引擎抓取动态页面时,为了避免"搜索机器人陷阱",都只抓取从静态页面(至少"看上去"是静态的页面)链接到的动态页面,而从动态页面链接出的动态页面都不再抓取。



  所以一个动态站点如果只针对上面这些搜索引擎,可以在上面小节介绍方法的基础上简化:只用创建一些入口页面,链接很多动态页面,然后将这些入口页面递交到这些搜索引擎就可以了。



  对于直接使用动态的URL地址,请注意:
  ·文件URL中不要有Session Id,同时不要用ID作为参数名称(特别是对于GOOGLE);
  ·参数越少越好,尽量不要超过2个;
  ·能在URL中不用参数尽量不要用,一些参数转移到其他地方,这样可以增加动态页面被抓取的深度和数目。

动态网站的搜索引擎策略

摘要:动态网站丰富了网站的功能,但是对于搜索引擎来说,情况就不同了,动态页面是在用户“输入内容”或者进行“选择”时动态生成的,但是搜索引擎的“搜索机器人”无法“输入”和“选择”。另外,搜索引擎要避免“...
  • osion
  • osion
  • 2007年07月18日 12:12
  • 407

百度搜索引擎变现策略指标体系

下文就百度商业变现的指标体系进行概要描述,并针对一个类似于百度LBS系统的变现思路,阐述一个商业系统变现策略指标体系的建立过程。 为什么需要商业变现策略指标体系 一般情况下,一个互联网产品,或是一...
  • dustinsea
  • dustinsea
  • 2014年08月05日 13:07
  • 2713

搜索引擎爬虫网页优先抓取策略

搜索引擎爬虫网页优先抓取策略   作为一个搜索引擎优化人员至少要懂得搜索引擎的一些原理,如搜索引擎基本的四个系统,爬虫抓取策略、如何辨别网页之间的相似度以及爬虫与网站之间的交互等等,...
  • WangDongLing123
  • WangDongLing123
  • 2014年04月16日 16:01
  • 1034

动态网站的优化策略

动态网站的优化策略Google排名网 2006-12-26 8:18:36 搜索引擎抓取动态网站页面时面临的问题:从用户的角度看,动态网站非常不错,丰富了站点的功能,但是对于搜索引擎来说,情况就不同了...
  • longnie
  • longnie
  • 2007年02月25日 23:48
  • 328

搜索引擎—网络爬虫抓取策略

爬虫的不同抓取策略,就是利用不同的方法确定待抓取URL队列中URL优先顺序的。爬虫的抓取策略有很多种,但不论方法如何,基本目标一致:优先选择重要网页进行抓取。 网页的重要性,评判标准不同,大部分采用...
  • y396397735
  • y396397735
  • 2015年11月13日 13:59
  • 1802

如何设计一个健壮而且厉害防爬策略

0.首先你得有一个能扛住爬虫的可以计算黑白名单的数据库,当然我们选择redis,单台 qps 达到20000+,杠杠的,然后你得在不影响业务的情况下来验证爬虫,我们可以通过异步读取nginx的acce...
  • qiushi888
  • qiushi888
  • 2018年01月08日 21:50
  • 23

浅析seo优化之网站静态页面跟动态页面的特色

静态网页是相对于动态网页而言,是指没有后台数据库、不含程序和不可交互的网页。你编的是什么它显示的就是什么、不会有任何改变。静态网页相对更新起来比较麻烦,适用于一般更新较少的展示型网站。在网站设计中,纯...
  • tianyake116
  • tianyake116
  • 2016年12月13日 21:56
  • 960

搜索引擎索引之如何更新索引

本文节选自《这就是搜索引擎:核心技术详解》第三章      动态索引通过在内存中维护临时索引,可以实现对动态文档和实时搜索的支持。但是服务器内存总是有限的,随着新加入系统的文档越来越多,临时...
  • hu948162999
  • hu948162999
  • 2014年10月16日 11:43
  • 896

动态网站一(哈佛大学公开课:构建动态网站1-3课)

首先要有一个domain name,要有一个注册商,可以提供网络zhuji
  • u013713637
  • u013713637
  • 2014年06月02日 10:48
  • 863

美团点评旅游搜索召回策略的演进

背景 美团点评作为最大的生活服务平台,有丰富的品类可供用户选择,因此搜索这个入口对各业务的重要性不言而喻,除了平台搜索外,业务搜索系统的质量和效果对用户体验、商家曝光、平台交易也有着...
  • zz901214
  • zz901214
  • 2017年12月06日 15:33
  • 331
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:动态网站的搜索引擎策略
举报原因:
原因补充:

(最多只允许输入30个字)