我的网站开了有一段时间了。
发现自己手工添加信息十分辛苦。
看别人的PHP采集系统用的很爽。
也想弄个采集系统,但是好像真没什么人用asp做采集
而且asp的采集效率怎么样,我也不知道。
于是开始动手了。
其实asp采集原理很简单,
使用xmlhttp访问指定页面,把文章读取,然后使用正则表达式,选出自己需要的内容,最后保存到自己的数据库中。
这里有两个问题
采集的时候如果目标页面访问错误,使用Msxml2.XMLHTTP,没有超时限制,那么服务器会挂掉的。
所以需要使用MSXML2.ServerXMLHTTP,设置XmlHttp.SetTimeOuts 10000, 10000, 15000, 15000就可以了
第二个问题是9ppk.com是做网页图标打包下载的,网页图标总得有预览图片,
图片肯定也得采集回来,否则,别人网站图片删了,我的页面上也全是“大坑”了
采集图片也是用MSXML2.ServerXMLHTTP的。只是读取的是文件流,XmlHttp.ResponseStream.
需要使用ado的stream,把文件保存在服务器上。
关键问题差不多解决了,花了不小功夫可以做采集了。
但是程序一运行,傻眼了,速度好慢呀。采集个1000篇文章,不知道要等到什么时候了。还不定有自己手动快呢。
于是放弃了,还是老老实实自己一篇一篇文章添加吧。