写了一个网络爬虫,可以抓取网上的图片。
需要给定初始网站即可。
在vs2010中编译通过。
需要使用多字节字符集进行编译,
vs2010默认的是Unicode字符集。
编译后,运行即可,有惊喜哦!!!
爬虫原理
从最开始的网址开始,在其中找到链接到其他网页的超链接,
放到一个网页队列里面保存起来,找到该网页的所有图片,下载下来。
查看网页队列是否为空,不为空则取出下一个网页,
提取该网页的超链接放入队列的后面,下载该网页所有图片。
如此循环往复。
主框架:
void main()
{
//初始化socket,用于tcp网络连接
WSADATA wsaData;
if( WSAStartup(MAKEWORD(2,2), &wsaData) != 0 ){
return;
}
// 创建文件夹,保存图片和网页文本文件