数据挖掘研究过一段时间,爬取网站数据须为每个网站编写一段类似的代码,网上也有很多这方面的工具,也都是针对网站写不同规则,经过测试开发了一个"进步点"工具,呵呵,当然还称不上爬虫软件,先称为“百万采集软件”
特点:
1.解决了须为每个网站编写模版代码的重复工作,由原来需要一两个工作时完成的任务提高到一分钟之内就可以解决。
2.针对Internet各行业资讯网站,支持按关键字数据爬取和列表数据爬取。
3.强大的图片处理,无论是相对路径还是绝对路径,软件自动寻找原图片下载地址,保存到本地服务器并加公司水印图片,下载错误或不能下载图片自动还原为原图片完整访问路径,保证数据完整。
4.软件支持在下载数据的同时生成静态页面。
5.支持ACCESS,MYSQL,MSSQL三种数据库存储。
6.软件有考虑SEO方面的内容。
使用方法非常简单,只需将软件安装到服务器调整配制文件双击运行,软件会自动不间断的搜录最新资讯,无人看守,全自动。运行效果查看汽车行业资讯(http://www.china4auto.com,http://www.china4auto.com/news/listnews.aspx)。