1.建立数据存放目录,如欲将原始网页保存到d:\data\目录下,具体的HTML页面存放在d:\data\html目录下,解析的文档存放在d:\data\txt目录下。需要先建立这些存放的目录。
2.运行程序:在命令行输入wise,即运行wise.bat,系统开始启动。
3.选择“智能收集”菜单项的“参数设置”,进入系统参数设置面板。
1) 输入IP地址范围(若需要),
如:202.96.*.*;或 202.96.100.0-202.98.255.255
2) 选择网站类型:由列表中选择或在文本框中输入对网站(URL)的限制条件,如要求.com,.edu,或要求URL中包含sports,或peopledaily等特征字;
3) 输入作为过滤条件的关键词,过滤方式有“包含关键词”和“不包含关键词”两种;
4) 确定Spider运行的起始时间和终止时间;
5) 设置Spider并行运行的个数,设置值为不大于500的整数;
6) 设置Spider更新运行的周期;
7) 设置Spider运行的模式:
0简单模式:不分析超级链接,不继续深入跟踪;
1标准模式:以网页为基本单位,进行超级链接的解析,逐层深入和跟踪;
2网站模式:以网站为基本单位,只在网站内部深入,直到遍历该网站。
8) 设置数据文件存放的位置,如第一步建立的d:\data目录,主要用于保存原始网页。
以上参数设置完成后,按确认按钮,参数设置即开始生效,也可以重新设置。
4.选择“智能收集”菜单项的“网页搜集”,就可以从URL数据库库中读取已有的初始URL地址,以批量的方式开始进行网页数据搜集。
若选择“智能搜集”菜单项的“网页更新”,则可以用打开初始URL文件的方式来进行网页数据库的搜集。这种方式通常对某些网站进行专门的搜集。