[size=medium]提供以下几种抓取的范围[/size]
[color=red]1、BroadScope[/color]
BroadScope可以限制抓取的链接数,但不强加给主机,域,或URI路径中的任何限制抓取。
简单的说:什么路径都可以抓
[color=red]2、SurtPrefixScope[/color]
一个高度灵活和公正高效的范围内可以根据配置定义抓取域,个别主机或主机路径的特定区域,或这些混合物,这个我看的不是很明白
[color=red]3、FilterScope[/color]
高度可配置范围,通过添加不同的过滤器组合成这个范围,可以配置提供各种各样的行为。选择了这个filter,你必须要从这里的过滤标签添加你想要运行的抓取范围的标签
如果想抓取 'www.archive.org' ,过滤器规则可以像这样^(?:http|dns)www.archve.org/\.*
注意:Be careful you don't rule out prerequisites such as dns or robots.txt when specifying your scope filter
[color=red]4、DomainScope[/color]
如果抓取的种子是 'archive.org', a domain scope 将会抓取 'audio.archive.org', 'movies.archive.org', etc. 它将会抓取所有的在 'archive.org'域中的URI
[color=red]5、HostScope[/color]
只限制seed提供的uri
比如种子是www.archive.org,只会抓取该种子下的内容,不会抓取audio.archive.org或movies.archive.org
[color=red]6、PathScope[/color]
这个范围,进一步限制对主机的种子定义的URI来发现路径
还是看官方原文吧
[color=red]1、BroadScope[/color]
BroadScope可以限制抓取的链接数,但不强加给主机,域,或URI路径中的任何限制抓取。
简单的说:什么路径都可以抓
[color=red]2、SurtPrefixScope[/color]
一个高度灵活和公正高效的范围内可以根据配置定义抓取域,个别主机或主机路径的特定区域,或这些混合物,这个我看的不是很明白
[color=red]3、FilterScope[/color]
高度可配置范围,通过添加不同的过滤器组合成这个范围,可以配置提供各种各样的行为。选择了这个filter,你必须要从这里的过滤标签添加你想要运行的抓取范围的标签
如果想抓取 'www.archive.org' ,过滤器规则可以像这样^(?:http|dns)www.archve.org/\.*
注意:Be careful you don't rule out prerequisites such as dns or robots.txt when specifying your scope filter
[color=red]4、DomainScope[/color]
如果抓取的种子是 'archive.org', a domain scope 将会抓取 'audio.archive.org', 'movies.archive.org', etc. 它将会抓取所有的在 'archive.org'域中的URI
[color=red]5、HostScope[/color]
只限制seed提供的uri
比如种子是www.archive.org,只会抓取该种子下的内容,不会抓取audio.archive.org或movies.archive.org
[color=red]6、PathScope[/color]
这个范围,进一步限制对主机的种子定义的URI来发现路径
还是看官方原文吧
This scope goes yet further and limits the discovered URIs to a section of paths on hosts defined by the seeds. Of course any host that has a seed pointing at its root (i.e. www.sample.com/index.html) will be included in full where as a host whose only seed is www.sample2.com/path/index.html will be limited to URIs under /path/.