垂直搜索爬虫设计疑问？

最新推荐文章于 2024-10-08 12:54:42 发布

安静的小丑

最新推荐文章于 2024-10-08 12:54:42 发布

阅读量142

点赞数

分类专栏：搜索技术文章标签：搜索引擎 Loadrunner 领域模型算法百度

搜索技术专栏收录该内容

4 篇文章 0 订阅

订阅专栏

由于我想开发一个垂直搜索引擎，
所以最近在关注垂直搜索引擎中的爬虫是如何爬取信息的？
现在我有4个疑问，希望能有人给点意见。
1、如何找到我们所需要的领域资源？
显然我们不可能象google，百度那样的在整个web上爬取网页，那样也不能搜集全我们要的领域资源，更新也太慢。就这个问题曾和两个做过垂直搜索的科技人员和老师聊过，他们的方法都是事先搜集全有关领域资源的网站，然后再定向爬取这些网站。但是这有个问题就是这些网站之外的资源该如何爬取？这个我看到有关资料中讲的方法是，根据已收集资源的链接来判断爬取，这个方法我觉得也还行。不知道还有没有其他思路？

2、如果是定向爬取一些特定的网站，如何抓取网站中的动态网页（常叫deep web）？
我觉得这是个大问题，现在这种动态的资源（主要是那些没有指向它的层次链接的）现在实在是太多，更要命的是这些网页往往对于垂直搜索引擎很重要，关于这些网页的爬取资料中讲到主要方法是：模拟表单提交，这个没有深入的研究过，不知难度和效率怎么样，希望有经验的人给点建议。

3、网页的更新策略？
对我们爬下来的网页已经新生成的网页，我们有怎么确定更新策略呢？比如那些静态的网页我想很常时间再爬一次也行就可以了，而对于那些经常修改很对于我们又很重要的网页是不是能几个小时就更新一次。但是这些更新策略该如何确定呢？有关资料上说了若干策略，分析网页的重要行，更新的频率等。
4、性能的评价
我想对于如何一个系统都应该有一个手段对其性能进行评价，对于我们这样一个垂直爬虫该如何评价其性能呢？
以上是我遇到的主要疑问，希望能有人与我多交流.

以下为网友回答。
----------------------------------------------------------------------

1.一般都是人工挑选该方面资源丰富站点，全网资源通过对google等网页搜索引擎给出的搜索结果查找添加进垂直搜索引擎来源；
2.建议查看loadrunner方面资料，有的loadrunner工具可以生成很多帐号模拟人机交互动作的；
3.对于新添加网站，花十天左右每天隔一小时爬一次，确定该网站更新策略，建立相应模型，如果从以后模型的运行中发现问题，再做策略探查；
4.这个嘛，不好说。