websundew操作中文说明书

最新推荐文章于 2024-04-24 16:59:15 发布

天空之蓝钻

最新推荐文章于 2024-04-24 16:59:15 发布

阅读量841

点赞数

文章标签：数据挖掘 excel web properties iterator 图形

本文链接：https://blog.csdn.net/huangssssx/article/details/1899529

版权

1.软件简介：

websundew是一种先进的网页资料提取工具，用于提取网页中的有价值的数据：它拥有完全的图形用户界面，步骤性良好的模板向导，自动迭代挂页(联系页)，自动登录到网站和数据抽取的宏命令。该引擎可用于提取电话号码，说明，姓名，地址，名称，价格，库存数据，以及更多的服务。该软件能够从商业名录，论坛，搜索引擎结果等来源处收集数据。

为了更好的学习这款软件，故编写了这个说明文档，不足之处请指正。

1-1.WebSundew 2.0 功能一瞥：

1. 抽取HTML文件的基础数据并导出为CSV、XML以及EXCEL格式。

2. 分步的指导式模板向导。

3. 内置的网络浏览器。

4. 自动迭代挂页(联系页)。

5. 自动登录到网站和数据抽取的宏命令。

6. 百分之一百的图形用户界面。

2.软件功能演示：

2-1．Recording Web Macro(宏网站录制)：

首先是提取软件操作网页所需要的数据。这需要一个特别网页定位方式。最简单的方法是webnavigator。而这个数据会在程序锁定静态网页的时候被使用，所以就像我们的例子所示。只需要在webnavigation中输入网站的url：http://www.sundewsoft.com/testdata/books.php

当页面装载，点击这个“Play Web Macro”按钮开始，然后按一下“Stop Web Macro”停止对宏网页的录制，然后将跳出导航窗口。

单击“Finish”，新的宏将出现在”Project”窗口中。你可以对这个宏进行测试，通过点击“Play Web Macro”按钮测试它是否能连接到正确的网站。

*PS：这是一个网站的定位系统，思路上比较像IE的“收藏夹”。

2-2． Finding Data Pattern(数据挖掘模式)

本模式用于对网页内部数据的提取，通过点击“Page Work”按钮锁定网页的特定区域，此区域以高亮的边框表示，然后点击“Data Pattern”按钮选择“Simple Iterator”项，这时候将出现一个选择提取网页数据的元素队列，如下所示：

点击“next”,出现以下界面，该界面用于用户选择自己感兴趣的元素，在网页上选择后如选择“Book1”，“Data Pattern”界面的“Add Node”按钮将高亮，点击它将把“Book1”元

素的相关信息字段挖掘到列表中，这时候你可以在列表中修改它的可用性（Required）和元素名（Name），以相同方法在提取其它你所感兴趣的元素，这里笔者添加了“Price”（70.00），

Quantity(87),点击“Next”进入下一步。

点击“Find Pattern”创建Patterns列表，选择你感兴趣的选项点击“Next”，进入下一个页面：

这里是修改元素名和元素注释的地方，没什么好说的,继续”Next”.在下一个界面修改生成的Data Pattern的名称和注释。点击“Finish“完成操作。

2-3． Finding Next Page Pattern（下一步页面模式）

点击 “Next Page Pattern “按钮，出现”Next Page Pattern”页面，接下来的

操作与Finding Data Pattern(数据挖掘模式)雷同，只不过在点击”Next”后出现以下界面的时候应选择页面中的 “Next” 按钮进行添加元素，效果如下：

点击”Next”进入下一个界面进行填写”Page Pattern”名称和注释，然后点击”Finish”结束操作。

2-4.Creating Data View(创建数据视图)

点击 ” Creating Data View”按钮进入“Data View“界面。在下拉菜单可以选择已经创建的Data Pattern ,如:”book3”。

然后一路Next,最后修改Data View的名称和注释就可以Finish了，这里笔者使用的名称是”Bookview3”。生成的Data View出现在 Data View窗口中。

当然您也可以选中一个Data View在 Data Result 栏中预览你所提取的数据：

2-5. Configuring Data Source(配置数据源)

现在我们创建一个数据源，点击 ”Create Data Source”按钮。在窗口中，选择excel的数据源。这将打开用于Data Source备份Data view数据的选择对话框。

在 Output Source栏中填入你想要存放生成的Excel表的路径。其他的选项可保持不变。如果你需要可以点击”Next”进行生成的Data Source的名称和注释的填写，否则直接按”Finish”结束操作。

2-6. Creating Data Extraction(创建数据抽取)

该功能主要用于提取链接的所有对象。创造一种提取，首先点击 ”Creating Data Extraction”按钮。这将打开一个宏网页选择窗口。

在下拉菜单中选择Web macro选项，选择”Next”.

在出现的extraction菜单中的properties栏目中设置”next-page pattern”选项，设置名称和注释，然后添加一个数据源（笔者添加了一个BookDatasource3数据源），点击”Finishi”完成操作，生成的数据将在”Data Extraction”中显示。

2-7. Running extraction(运行提取)

终于来到数据的输出部分了，在这里数据将完成输出到外部的动作。

选择 ”Start Data Extraction”按钮的下拉按键此时将出现已生成的Extraction（参考2-6），选择你要输出的Extraction，出现其对应的Extraction界面：

如上图，点击”Myextraction4”将会出现它的Extraction对话框，选择data source,点击“Open”，将把提取到的数据参照您在”Data source”中输入的路径输出到指定文件夹下。

至此所有操作宣告完结。

3．小结

Websundew提取数据的流程很简单，总的来说按照：

Recording Web Macro(宏网站录制)。——> Finding Data Pattern(数据挖掘模式)。——> Finding Next Page Pattern（下一步页面模式）。——> Creating Data View(创建数据视图)。——> Configuring Data Source(配置数据源)。——> Creating Data Extraction(创建数据抽取)。——> Running extraction(运行提取)。

的步骤就可以顺利的提取数据，当然作为一款优秀的网页资源提取工具 websundew 还有更多的功能有待发掘，有心的朋友可以联系我，我的 QQ 是： 327957254 。

天空之蓝钻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
websundew操作中文说明书

1.软件简介：websundew是一种先进的网页资料提取工具，用于提取网页中的有价值的数据：它拥有完全的图形用户界面，步骤性良好的模板向导，自动迭代挂页(联系页)，自动登录到网站和数据抽取的宏命令。该引擎可用于提取电话号码，说明，姓名，地址，名称，价格，库存数据，以及更多的服务。该软件能够从商业名录，论坛，搜索引擎结果等来源处收集数据。为了更好的学习这款软件，故编写了这个说明文档，不足之处
复制链接

扫一扫