系统架构
在实际的系统实现时,系统要采用多线程技术,在这里,用户可以通过手动的方式,指定采集线程的数目。因此可分为以下模块:
1.主控制模块:
提供命令输入端口;
2.采集模块:
采用http下载方式,对用户指定的网址进行动态下载,采用多线程,用户在采集前需要配置采集线程数,采集的初始网址信息;
在html脚本中,URL通常表示,注意后面分析。
3.网页分析模块:
对采集到的网页进行分析,查找所有符合规则的URL信息,并判断该URL信息是否已被采集到,若未被采集到,则加入缓存集合,否则丢弃;
用到map的数据结构
4.存储模块:
利用MySQL提供的API,将采集到的URL缓存信息写入数据库。
基本步骤:
(1)配置连接参数,如用户名,密码,数据库名等;
(2)连接MySQL,连接成功则转向(3),否则退出;
(3)获得要存储的URL信息;
(4)格式化SQL语句,并执行。