1.软件简介:
websundew是一种先进的网页资料提取工具,用于提取网页中的有价值的数据:它拥有完全的图形用户界面,步骤性良好的模板向导,自动迭代挂页(联系页),自动登录到网站和数据抽取的宏命令。该引擎可用于提取电话号码,说明,姓名,地址,名称,价格,库存数据,以及更多的服务。该软件能够从商业名录,论坛,搜索引擎结果等来源处收集数据。
为了更好的学习这款软件,故编写了这个说明文档,不足之处请指正。
1-1.WebSundew 2.0 功能一瞥:
1. 抽取HTML文件的基础数据并导出为CSV、XML以及EXCEL格式。
2. 分步的指导式模板向导。
3. 内置的网络浏览器。
4. 自动迭代挂页(联系页)。
5. 自动登录到网站和数据抽取的宏命令。
6. 百分之一百的图形用户界面。
2.软件功能演示:
2-1.Recording Web Macro(宏网站录制):
首先是提取软件操作网页所需要的数据。这需要一个特别网页定位方式。最简单的方法是webnavigator。而这个数据会在程序锁定静态网页的时候被使用,所以就像我们的例子所示。只需要在webnavigation中输入网站的url:http://www.sundewsoft.com/testdata/books.php
当页面装载,点击这个“Play Web Macro”按钮开始,然后按一下“Stop Web Macro”停止对宏网页的录制,然后将跳出导航窗口。
单击“Finish”,新的宏将出现在”Project”窗口中。你可以对这个宏进行测试,通过点击“Play Web Macro”按钮测试它是否能连接到正确的网站。
*PS:这是一个网站的定位系统,思路上比较像IE的“收藏夹”。
2-2. Finding Data Pattern(数据挖掘模式)
本模式用于对网页内部数据的提取,通过点击“Page Work”按钮锁定网页的特定区域,此区域以高亮的边框表示,然后点击“Data Pattern”按钮选择“Simple Iterator”项,这时候将出现一个选择提取网页数据的元素队列,如下所示:
点击“next”,出现以下界面,该界面用于用户选择自己感兴趣的元素,在网页上选择后如选择“Book1”,“Data Pattern”界面的“Add Node”按钮将高亮,点击它将把“Book1”元
素的相关信息字段挖掘到列表中,这时候你可以在列表中修改它的可用性(Required)和元素名(Name),以相同方法在提取其它你所感兴趣的元素,这里笔者添加了“Price”(70.00),
Quantity(87),点击“Next”进入下一步。
点击“Find Pattern”创建Patterns列表,选择你感兴趣的选项点击“Next”,进入下一个页面:
这里是修改元素名和元素注释的地方,没什么好说的,继续”Next”.在下一个界面修改生成的Data Pattern的名称和注释。点击“Finish“完成操作。
2-3. Finding Next Page Pattern(下一步页面模式)
点击 “Next Page Pattern “按钮,出现”Next Page Pattern”页面,接下来的
操作与Finding Data Pattern(数据挖掘模式)雷同,只不过在点击”Next”后出现以下界面的时候应选择页面中的 “Next” 按钮进行添加元素,效果如下:
点击”Next”进入下一个界面进行填写”Page Pattern”名称和注释,然后点击”Finish”结束操作。
2-4.Creating Data View(创建数据视图)
点击 ” Creating Data View”按钮进入“Data View“界面。在下拉菜单可以选择已经创建的Data Pattern ,如:”book3”。
然后一路Next,最后修改Data View的名称和注释就可以Finish了,这里笔者使用的名称是”Bookview3”。生成的Data View出现在 Data View窗口中。
当然您也可以选中一个Data View在 Data Result 栏中预览你所提取的数据:
2-5. Configuring Data Source(配置数据源)
现在我们创建一个数据源,点击 ”Create Data Source”按钮。在窗口中,选择excel的数据源 。这将打开用于Data Source备份Data view数据的选择对话框。
在 Output Source栏中填入你想要存放生成的Excel表的路径。其他的选项可保持不变。如果你需要可以点击”Next”进行生成的Data Source的名称和注释的填写,否则直接按”Finish”结束操作。
2-6. Creating Data Extraction(创建数据抽取)
该功能主要用于提取链接的所有对象。创造一种提取,首先点击 ”Creating Data Extraction”按钮。这将打开一个宏网页选择窗口。
在下拉菜单中选择Web macro选项,选择”Next”.
在出现的extraction菜单中的properties栏目中设置”next-page pattern”选项,设置名称和注释,然后添加一个数据源(笔者添加了一个BookDatasource3数据源),点击”Finishi”完成操作,生成的数据将在”Data Extraction”中显示。
2-7. Running extraction(运行提取)
终于来到数据的输出部分了,在这里数据将完成输出到外部的动作。
选择 ”Start Data Extraction”按钮的下拉按键此时将出现已生成的Extraction(参考2-6),选择你要输出的Extraction,出现其对应的Extraction界面:
如上图,点击”Myextraction4”将会出现它的Extraction对话框,选择data source,点击“Open”,将把提取到的数据参照您在”Data source”中输入的路径输出到指定文件夹下。
至此所有操作宣告完结。
3. 小结
Websundew提取数据的流程很简单,总的来说按照:
Recording Web Macro(宏网站录制)。——> Finding Data Pattern(数据挖掘模式)。——> Finding Next Page Pattern(下一步页面模式)。——> Creating Data View(创建数据视图)。——> Configuring Data Source(配置数据源)。——> Creating Data Extraction(创建数据抽取)。——> Running extraction(运行提取)。
的步骤就可以顺利的提取数据, 当然作为一款优秀的网页资源提取工具 websundew 还有更多的功能有待发掘,有心的朋友可以联系我,我的 QQ 是: 327957254 。