C++网络爬虫的实现——WinSock编程


写了一个网络爬虫,可以抓取网上的图片。

需要给定初始网站即可。

在vs2010中编译通过。

需要使用多字节字符集进行编译,

vs2010默认的是Unicode字符集。

编译后,运行即可,有惊喜哦!!!


爬虫原理

从最开始的网址开始,在其中找到链接到其他网页的超链接,

放到一个网页队列里面保存起来,找到该网页的所有图片,下载下来。


查看网页队列是否为空,不为空则取出下一个网页,

提取该网页的超链接放入队列的后面,下载该网页所有图片。


如此循环往复。


主框架:
void main()
{
//初始化socket,用于tcp网络连接
    WSADATA wsaData;
    if( WSAStartup(MAKEWORD(2,2), &wsaData) != 0 ){
        return;
    }

// 创建文件夹,保存图片和网页文本文件
  • 27
    点赞
  • 177
    收藏
    觉得还不错? 一键收藏
  • 39
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 39
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值