悠然乱弹：WebMagic VS TinySpider-CSDN博客

两者都是可以用于网页数据抓取，都有良好的扩展性及架构设计，但是由于定位稍有差异，因此在开发的时候各有侧重点，今天就写一篇专门的文章进行比较，由于对WebMagic学习得还不够，因此有些地方可能是错误地，欢迎指正或板砖伺候。

一、扫描方法的差异

a.WebMagic的扫描

 
         WebMagic采用的是遍地撒网、愿者上勾的方式，怎么解释这个遍地撒网呢？ 
        
         在进行内容抓取的时候，与事先定义好的处理器中的匹配规则进行匹配，匹配成功则处理之。 
        
         把所有的超链接找到并添加到待处理列表中，然后对新找到的链接继续进行处理。 
        
         所以WebMagic会把所有的页面都扫描一次，在扫描的过程中进行匹配，匹配上的进行处理。

b.TinySpider的扫描

 
         TinySpider采用的则是抽丝剥茧，精确打击的策略。什么个意思呢？ 
        
         在进行内容抓取的时候，首先有个入口页面，然后在上面定义了许多Watcher，实际上就是关注点了，只有它关注的点匹配的，才会执行其后续的动作触发，也就是扫描哪些页面或者后续扫描的走向是由程序员完全把控的。 
        
         所以TinySpider在扫描的时候，不一定会扫描所有的页面，只扫描自己关心的内容。当然，TinySpider也通过遍地撒网模式进行内容抓取。

c.二者比较

 
         WebMagic的编程模型更简单，TinySpider的编程则要复杂一些。 
        
         WebMagic的匹配准确度稍粗一点，TinySpider的匹配精准度更强一些。 
        
         不同的页面之间，WebMagic是没有关系的，因此不同的页面之间如果数据有关系，WebMagic处理起来比较麻烦，而TinySpider不同层次之间是可以方便的进行数据传递的，这方面有一定优势。 
        
         或者简单的说，WebMagic不同页面之间是列表方式进行扫描的，而TinySpider是递归方式树状扫描的。

二、数据获取方面的差异

WebMagic定义了数据抽取规则，如果数据比较规范，数据的抽取是非常简单的，只要定义好属性，再定义注解就可以了。
TinySpider没有提供这种类型的功能，需要开发人员自己抽取数据，带来的好处就是自由度就更大。当然，TinySpider已经根据Watcher上定义的过滤规则把处理的数据都已经收集起来，只是自己处理即可。

三、数据存储方面的差异

WebMagic考虑了抽取到数据之后的存储问题，并做了良好支持。。
TinySpider则把这个全部留给程序员，反正数据已经都提取到了，你自己想怎么处理自己决定吧。

四、比较器方面的差异

WebMagic主要通过注解加天XPath的方式进行内容抽取，因此对于比较规范的内容抓取是非常方便的。
TinySpider则内建了一个强大的匹配器，支持节点指定属性名及指定属性值过滤（可以指定多组）、指定属性名过滤（不管是什么值都可以，可以指定多个）、可以指定排除属性及属性值（即不能包含的属性名及值，可以包含多组）、不能包含的属性（可以包含多组）、包含文本内容（可以指定多组）、不能包含的文件内容（可以指定多组），可以指定包含的节点名（可以指定多组）、可以指定不能包含的节点（可以指定多组）、可以指定必须在某个节点下（可以指定多组）、可以指定不能在某个节点下（可以指定多组）、可以指定至少包含某几个节点中的一个，可以指定至下包含某几个属性中的一个，可以根据节点名进行搜索。不仅可以用来抓取内容，可以可以结合上下文准确的抓取内容。
这方面简洁性方面WebMagic占优，精准性方面TinySpider更强一点。