php知识管理平台作业,知识管理平台KMSphere

1.建立数据存放目录,如欲将原始网页保存到d:\data\目录下,具体的HTML页面存放在d:\data\html目录下,解析的文档存放在d:\data\txt目录下。需要先建立这些存放的目录。

2.运行程序:在命令行输入wise,即运行wise.bat,系统开始启动。

3.选择“智能收集”菜单项的“参数设置”,进入系统参数设置面板。

1) 输入IP地址范围(若需要),

如:202.96.*.*;或 202.96.100.0-202.98.255.255

2) 选择网站类型:由列表中选择或在文本框中输入对网站(URL)的限制条件,如要求.com,.edu,或要求URL中包含sports,或peopledaily等特征字;

3) 输入作为过滤条件的关键词,过滤方式有“包含关键词”和“不包含关键词”两种;

4) 确定Spider运行的起始时间和终止时间;

5) 设置Spider并行运行的个数,设置值为不大于500的整数;

6) 设置Spider更新运行的周期;

7) 设置Spider运行的模式:

0简单模式:不分析超级链接,不继续深入跟踪;

1标准模式:以网页为基本单位,进行超级链接的解析,逐层深入和跟踪;

2网站模式:以网站为基本单位,只在网站内部深入,直到遍历该网站。

8) 设置数据文件存放的位置,如第一步建立的d:\data目录,主要用于保存原始网页。

以上参数设置完成后,按确认按钮,参数设置即开始生效,也可以重新设置。

4.选择“智能收集”菜单项的“网页搜集”,就可以从URL数据库库中读取已有的初始URL地址,以批量的方式开始进行网页数据搜集。

若选择“智能搜集”菜单项的“网页更新”,则可以用打开初始URL文件的方式来进行网页数据库的搜集。这种方式通常对某些网站进行专门的搜集。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值