websundew操作中文说明书

1.软件简介:

websundew是一种先进的网页资料提取工具,用于提取网页中的有价值的数据:它拥有完全的图形用户界面,步骤性良好的模板向导,自动迭代挂页(联系页),自动登录到网站和数据抽取的宏命令。该引擎可用于提取电话号码,说明,姓名,地址,名称,价格,库存数据,以及更多的服务。该软件能够从商业名录,论坛,搜索引擎结果等来源处收集数据。

为了更好的学习这款软件,故编写了这个说明文档,不足之处请指正。

 

1-1.WebSundew 2.0 功能一瞥:

1.    抽取HTML文件的基础数据并导出为CSVXML以及EXCEL格式。

2.    分步的指导式模板向导。

3.    内置的网络浏览器。

4.    自动迭代挂页(联系页)

5.    自动登录到网站和数据抽取的宏命令。

6.    百分之一百的图形用户界面。

 

 

 

2.软件功能演示:

2-1Recording Web Macro(宏网站录制)

首先是提取软件操作网页所需要的数据。这需要一个特别网页定位方式。最简单的方法是webnavigator。而这个数据会在程序锁定静态网页的时候被使用,所以就像我们的例子所示。只需要在webnavigation中输入网站的urlhttp://www.sundewsoft.com/testdata/books.php

当页面装载,点击这个“Play Web Macro”按钮开始,然后按一下“Stop Web Macro”停止对宏网页的录制,然后将跳出导航窗口。

单击“Finish”,新的宏将出现在Project窗口中。你可以对这个宏进行测试,通过点击“Play Web Macro”按钮测试它是否能连接到正确的网站。

 

*PS:这是一个网站的定位系统,思路上比较像IE的“收藏夹”。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2-2Finding Data Pattern(数据挖掘模式)

本模式用于对网页内部数据的提取,通过点击“Page Work”按钮锁定网页的特定区域,此区域以高亮的边框表示,然后点击“Data Pattern按钮选择Simple  Iterator项,这时候将出现一个选择提取网页数据的元素队列,如下所示:

点击“next,出现以下界面,该界面用于用户选择自己感兴趣的元素,在网页上选择后如选择“Book1”,“Data Pattern”界面的“Add Node”按钮将高亮,点击它将把“Book1”元

素的相关信息字段挖掘到列表中,这时候你可以在列表中修改它的可用性(Required)和元素名(Name),以相同方法在提取其它你所感兴趣的元素,这里笔者添加了“Price”(70.00),

Quantity(87),点击“Next”进入下一步。

点击“Find Pattern”创建Patterns列表,选择你感兴趣的选项点击“Next”,进入下一个页面:

这里是修改元素名和元素注释的地方,没什么好说的,继续”Next”.在下一个界面修改生成的Data Pattern的名称和注释。点击“Finish“完成操作。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2-3 Finding Next Page Pattern(下一步页面模式)

 点击 “Next Page Pattern “按钮,出现”Next Page Pattern”页面,接下来的

操作与Finding Data Pattern(数据挖掘模式)雷同,只不过在点击”Next”后出现以下界面的时候应选择页面中的 “Next” 按钮进行添加元素,效果如下:

点击”Next”进入下一个界面进行填写”Page Pattern”名称和注释,然后点击”Finish”结束操作。

 

 

2-4.Creating Data View(创建数据视图)

  点击 ” Creating Data View”按钮进入“Data View“界面。在下拉菜单可以选择已经创建的Data Pattern ,:”book3”

然后一路Next,最后修改Data View的名称和注释就可以Finish了,这里笔者使用的名称是”Bookview3”。生成的Data View出现在 Data View窗口中。

当然您也可以选中一个Data View Data Result 栏中预览你所提取的数据:

 

 

2-5. Configuring Data Source(配置数据源)

现在我们创建一个数据源,点击 Create Data Source”按钮。在窗口中,选择excel的数据源 。这将打开用于Data Source备份Data view数据的选择对话框。

Output Source栏中填入你想要存放生成的Excel表的路径。其他的选项可保持不变。如果你需要可以点击”Next”进行生成的Data Source的名称和注释的填写,否则直接按”Finish”结束操作。

 

 

 

 

 

 

 

 

 

 

 

 

 

2-6. Creating Data Extraction(创建数据抽取)

该功能主要用于提取链接的所有对象。创造一种提取,首先点击 ”Creating Data Extraction”按钮。这将打开一个宏网页选择窗口。

在下拉菜单中选择Web macro选项,选择”Next”.

 

在出现的extraction菜单中的properties栏目中设置”next-page pattern”选项,设置名称和注释,然后添加一个数据源(笔者添加了一个BookDatasource3数据源),点击”Finishi”完成操作,生成的数据将在”Data Extraction”中显示。

2-7. Running extraction(运行提取)

终于来到数据的输出部分了,在这里数据将完成输出到外部的动作。

选择 ”Start Data Extraction”按钮的下拉按键此时将出现已生成的Extraction(参考2-6),选择你要输出的Extraction,出现其对应的Extraction界面:

如上图,点击”Myextraction4”将会出现它的Extraction对话框,选择data source,点击“Open”,将把提取到的数据参照您在”Data source”中输入的路径输出到指定文件夹下。

至此所有操作宣告完结。

 

 

3 小结

Websundew提取数据的流程很简单,总的来说按照:

Recording Web Macro(宏网站录制)——> Finding Data Pattern(数据挖掘模式)——> Finding Next Page Pattern(下一步页面模式)。——> Creating Data View(创建数据视图)——> Configuring Data Source(配置数据源)——> Creating Data Extraction(创建数据抽取)——> Running extraction(运行提取)

的步骤就可以顺利的提取数据, 当然作为一款优秀的网页资源提取工具 websundew 还有更多的功能有待发掘,有心的朋友可以联系我,我的 QQ 是: 327957254
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值