由于我们想做一个垂直搜索引擎, 所以最近在关注垂直搜索引擎中的爬虫是如何爬取信息的?呵呵这是第一步
现在我有4个疑问,希望能有人给点意见。
1、如何找到我们所需要的领域资源?
显然我们不可能象google,百度那样的在整个web上爬取网页,那样也不能搜集全我们要的领域资源,更新也太慢。就这个问题曾和两个做过垂直搜索的科技人员和老师聊过,他们的方法都是事先搜集全有关领域资源的网站,然后再定向爬取这些网站。但是这有个问题就是这些网站之外的资源该如何爬取?这个我看到有关资料中讲的方法是,根据已收集资源的链接来判断爬取,这个方法我觉得也还行。不知道还有没有其他思路?
2、如果是定向爬取一些特定的网站,如何抓取网站中的动态网页(常叫deep web)?
我觉得这是个大问题,现在这种动态的资源(主要是那些没有指向它的层次链接的)现在实在是太多,更要命的是这些网页往往对于垂直搜索引擎很重要,关于这些网页的爬取资料中讲到主要方法是:模拟表单提交,这个没有深入的研究过,不知难度和效率怎么样,希望有经验的人给点建议。
3、网页的更新策略?
对我们爬下来的网页已经新生成的网页,我们有怎么确定更新策略呢?比如那些静态的网页我想很常时间再爬一次也行就可以了,而对于那些经常修改很对于我们又很重要的网页是不是能几个小时就更新一次。但是这些更新策略该如何确定呢?有关资料上说了若干策略,分析网页的重要行,更新的频率等。
4、性能的评价
我想对于如何一个系统都应该有一个手段对其性能进行评价,对于我们这样一个垂直爬虫该如何评价其性能呢?
以上是我遇到的主要疑问,希望能有人与我多交流。
我会陆续把我搜集到的资料贴上来,请大家多关注。
现在我有4个疑问,希望能有人给点意见。
1、如何找到我们所需要的领域资源?
显然我们不可能象google,百度那样的在整个web上爬取网页,那样也不能搜集全我们要的领域资源,更新也太慢。就这个问题曾和两个做过垂直搜索的科技人员和老师聊过,他们的方法都是事先搜集全有关领域资源的网站,然后再定向爬取这些网站。但是这有个问题就是这些网站之外的资源该如何爬取?这个我看到有关资料中讲的方法是,根据已收集资源的链接来判断爬取,这个方法我觉得也还行。不知道还有没有其他思路?
2、如果是定向爬取一些特定的网站,如何抓取网站中的动态网页(常叫deep web)?
我觉得这是个大问题,现在这种动态的资源(主要是那些没有指向它的层次链接的)现在实在是太多,更要命的是这些网页往往对于垂直搜索引擎很重要,关于这些网页的爬取资料中讲到主要方法是:模拟表单提交,这个没有深入的研究过,不知难度和效率怎么样,希望有经验的人给点建议。
3、网页的更新策略?
对我们爬下来的网页已经新生成的网页,我们有怎么确定更新策略呢?比如那些静态的网页我想很常时间再爬一次也行就可以了,而对于那些经常修改很对于我们又很重要的网页是不是能几个小时就更新一次。但是这些更新策略该如何确定呢?有关资料上说了若干策略,分析网页的重要行,更新的频率等。
4、性能的评价
我想对于如何一个系统都应该有一个手段对其性能进行评价,对于我们这样一个垂直爬虫该如何评价其性能呢?
以上是我遇到的主要疑问,希望能有人与我多交流。
我会陆续把我搜集到的资料贴上来,请大家多关注。