用户操作
[留言]  [发消息]  [加为好友] 
订阅我的博客
XML聚合    FeedSky
订阅到鲜果
订阅到Google
订阅到抓虾
cao5的公告
<center><object classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,29,0" width="150" height="150" align="middle"> <param name="movie" value="http://bbs.smgbb.cn/Skins/Default/clock.swf"> <param name="quality" value="high"> <param name="WMODE" value="transparent"> <embed src="http://bbs.smgbb.cn/Skins/Default/clock.swf" width="150" height="150" align="middle" quality="high" pluginspage="http://www.macromedia.com/go/getflashplayer" type="application/x-shockwave-flash" scale="noborder" bgcolor="#E4E8EF"></embed> </object></center><p><center><b><a href="archive/2005/10/24/514748.aspx">个人简历</a></b></center></p>
文章分类
论坛
CSDN
草屋blog
网站
源码搜索
草屋音乐搜索
存档

原创  spider对文档内容的分析又一方法 收藏

   网页文档内容的分析
   一般可以分为内容提取,title标签,keywords等对页面内容的分析。
 其实可以在我们的spider的url连接来源的innertext进行分析,我觉得这个准确度还是比较大的
有的html文档根本就不能分析出什么内容,比如一个flash页面,spider是很难分析内容的,如果跟url来源innertext建立关系,那么就可以
这个flash的具体内容了 

发表于 @ 2005年10月05日 22:51:00 | 评论( loading... ) | 编辑| 举报| 收藏

旧一篇:对spider的一个改进! | 新一篇:完成一个ASP在线查IP来源的程序

  • 发表评论
  • 评论内容:
  •  
Copyright © cao5
Powered by CSDN Blog