一只简单的网络爬虫(基于linux C/C++)————开篇

最近学习开发linux下的爬虫,主要是参考了该博客及其他一些网上的资料。网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。目前有一些比较出名的一些开源爬虫,开源爬虫Labin,Nutch,Neritrix介绍和对比见这里
下面说的爬虫是作为一个新手来说的,高手请勿喷
(1)该爬虫就功能来说比较单一,但是作为一个个人的学习项目来说又是相对完整的。
(2)该爬虫可优化的地方太多,很多的方案不一定是最好的,所以该爬虫仅仅适合于新手的学习
(3)这个算是一个完整的项目,基于linux的,虽然是C风格的,但是里面用到了很多C++的东西,特别是几种容器
(4)因为我也以此项目来学习的,我觉得作为学习项目还是具有一定的学习价值:
通过此项目,我们将学会几种思想:软件框架思想,代码复用思想, 迭代开发思想,增量开发思想
通过此项目,我们将会掌握并巩固以下技术要点:
1、Linux进程及调度 2、Linux服务 3、信号 4、Socket编程 5、Linux多任务 6、文件系统 7、正则表达式
8、shell脚本 9、动态库
另外我们还会学到一些额外的的知识:
1、 如何使用HTTP协议 2、 如何设计一个系统 3、 如何选择和使用开源项目 4、 如何选择I/O模型 5、 如何进行系统分析
6、 如何进行容错处理 7、 如何进行系统测试 8、 如何对源代码进行管理

  • 12
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值