网络编程
lcygloria
这个作者很懒,什么都没留下…
展开
-
socket(一)
1.创建套接字 result=socket(pf,type,protocol) pf:套接字使用的协议族 type:指定了所需的通信类型 protocol:用于选择协议 1.1 UNIX管道机制 管道与标准网络操作的区别在于,管道同时创建了用于通信的两个端点。 socketpair(pf,type,protocol,sarray) sarray:二元整数数组的地址。sarra原创 2013-10-23 20:55:21 · 505 阅读 · 0 评论 -
尝试写个爬虫(4)
系统架构 在实际的系统实现时,系统要采用多线程技术,在这里,用户可以通过手动的方式,指定采集线程的数目。因此可分为以下模块: 1.主控制模块: 提供命令输入端口; 2.采集模块: 采用http下载方式,对用户指定的网址进行动态下载,采用多线程,用户在采集前需要配置采集线程数,采集的初始网址信息; 3.网页分析模块: 对采集到的网页进行分析,查找所有符合规则的URL信息,并判断该URL原创 2013-08-30 13:00:01 · 464 阅读 · 0 评论 -
尝试写个爬虫(3)
http请求与数据下载 http(超文本传输协议) 通常http用于传输文本信息,当然也可以传输二进制或者各种流式文件。 通信原理如下: 1.建立tcp会话连接,原创 2013-08-30 09:38:51 · 460 阅读 · 0 评论 -
尝试写个爬虫(2)
爬虫的工作原理 我们的这个小爬虫主要是对应于搜索引擎的信息采集部分,即对目标网页的下载,分析存在的链接,并加入到新的收集队列中。 主要技术 关键在于网页下载,涉及到套接字与应用层协议编程。 网页下载的基本流程是: 1.获得URL,解析出主机,端口以及资源路径; 2.调用DNS解析程序,将URL转换成ip地址; 3.建立与目标服务器的tcp连接,并构造http请求报文,请求下载原创 2013-08-29 17:44:38 · 506 阅读 · 0 评论 -
尝试写个爬虫(1)
背景知识 URL uniform resource locator 也是平常所说的网页地址。 URL是标准的Internet协议,由协议类型,主机名,资源路径等组成。 格式为: protocol://hostname[:port]/path/[;parameters][?query] protocal :是协议类型,最常用的是http协议。 hostname:主机地址,既可以用ip也可以原创 2013-08-29 12:52:16 · 604 阅读 · 0 评论