基于Linux/C/C+的网络爬虫系统

最新推荐文章于 2021-05-13 09:02:02 发布

cpp_wayne

最新推荐文章于 2021-05-13 09:02:02 发布

阅读量1.1k

点赞数 1

分类专栏：项目

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42237990/article/details/97530749

版权

项目专栏收录该内容

2 篇文章 0 订阅

订阅专栏

网络爬虫概念：是一个软件机器人，是可控的，可以按照一定的规则从互联网上抓取我们所需的资源。目前比较出名的开源爬虫有Labin、Nutch、Neritrix，详见：https://www.open-open.com/bbs/view/1325332257061
爬虫流程：
1、得到爬取种子（URL）
2、根据爬取种子下载资源（页面）
3、解析页面，提取更多的URL
4、对页面做持久化操作
5、根据提取的URL再进行下载操作
6、重复第2步到第5步
在这里插入图片描述
项目需求：自动化的从网络上抓取用户所需要的资源。

模块划分：主要分为控制器部分和下载器、解析器、持久化器等四部分
在这里插入图片描述

控制器部分

分为配置文件处理模块、URL维护模块和任务调度模块。
配置文件模块：是以文件形式保存程序运行时必要的参数，减少输入时的繁琐过程。文件类型是文本文件，内容一般以键值对形式出现，主要负责从配置文件中读取配置项，提供配置项的提取接口；

URL维护模块：负责维护URL库，进行URL入队、出队、去重，负责维护URL的抓取状态

http协议请求页面时的流程：
1、输入网址
2、向DNS发送解析请求
3、DNS返回给我们一个对应的IP地址
4、通过IP地址向资源所在的主机发送请求
5、如果资源存在，主机返回200状态，同时返回数据部分
6、本地http客户端（一般来说是浏览器）接收数据
7、得到资源

页面抓取流程：
1、得到一个新的URL
2、URL进入抓取队列等待抓取
3、从队列中得到一个URL，把其分配给一个下载器的实例
4、得到下载器的处理状态（URL处理状态需要被改写，得到当前URL深度，得到当前资源类型假如下载成功）
5、得到当前页面中存在的下一级URL列表

任务调度模块：负责调用其他系统模块协调控制器完成工作。

下载器模部分

下载器模块设计：下载器模块分为socket功能封装与Http功能模块，负责html页面的下载

Socket功能框架设计
1、初始化socket
2、向服务器发送请求
3、接受服务器反馈的数据
4、设置socket模式

HTTP协议处理模块
1、解析头
2、组装头

解析器部分

功能：负责解析html页面，提取url，将未抓取的url加入到待抓取url队列
html解析模块：

持久化器部分

功能：负责将相应资源保存到本地磁盘
文本文件保存模块：保存html页面
二进制文件保存模块：保存图片等资源

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

cpp_wayne CSDN认证博客专家 CSDN认证企业博客

码龄6年

78: 原创

7万+: 周排名

177万+: 总排名

5万+: 访问

: 等级

1197: 积分

45: 粉丝

77: 获赞

10: 评论

192: 收藏

私信

关注

热门文章

分类专栏

最新评论

Ubuntu 18.04 出现GLIBC_2.28 not found的解决方法【实测有效】
KelvinFanxian: [code=bash] vim /etc/apt/sources.list # 添加下面一行 deb http://security.debian.org/debian-security buster/updates main sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 112695A0E562B32A 54404762BBB6E853 sudo apt update apt install libc6-dev apt install libc6 [/code]
数据结构之八大排序总结
cpp_wayne: 是的，当时那个文档上写错了，没注意修改
数据结构之八大排序总结
zhahzafei: 简单选择排序不稳定吧
minishell的实现
凶猛的兔子: 太牛逼了。看了大神一片博客胜过我大学四年所学。。绝对是图灵在世。
C++基础知识002【类和对象的定义和使用】
SPANCER HAPPY: 求用C++实现对图像编辑实现一个解决方案无论照片过度曝光或缺乏曝光能够自适应地把照片亮度调节到正常 1. jpg是一张非常暗的图片，想办法让这张照片变得明亮。2.jpg是一张非常亮的图片，想办法让这张照片变得暗淡。这些变换都不应当影响画质，同时变换结果应当满足视觉舒适。蒙圈了是个萌新谢谢老师

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。