网络编程
lcygloria
这个作者很懒,什么都没留下…
展开
-
socket(一)
1.创建套接字result=socket(pf,type,protocol)pf:套接字使用的协议族type:指定了所需的通信类型protocol:用于选择协议 1.1 UNIX管道机制管道与标准网络操作的区别在于,管道同时创建了用于通信的两个端点。socketpair(pf,type,protocol,sarray)sarray:二元整数数组的地址。sarra原创 2013-10-23 20:55:21 · 505 阅读 · 0 评论 -
尝试写个爬虫(4)
系统架构在实际的系统实现时,系统要采用多线程技术,在这里,用户可以通过手动的方式,指定采集线程的数目。因此可分为以下模块:1.主控制模块:提供命令输入端口;2.采集模块:采用http下载方式,对用户指定的网址进行动态下载,采用多线程,用户在采集前需要配置采集线程数,采集的初始网址信息;3.网页分析模块:对采集到的网页进行分析,查找所有符合规则的URL信息,并判断该URL原创 2013-08-30 13:00:01 · 464 阅读 · 0 评论 -
尝试写个爬虫(3)
http请求与数据下载http(超文本传输协议)通常http用于传输文本信息,当然也可以传输二进制或者各种流式文件。通信原理如下:1.建立tcp会话连接,原创 2013-08-30 09:38:51 · 460 阅读 · 0 评论 -
尝试写个爬虫(2)
爬虫的工作原理我们的这个小爬虫主要是对应于搜索引擎的信息采集部分,即对目标网页的下载,分析存在的链接,并加入到新的收集队列中。主要技术关键在于网页下载,涉及到套接字与应用层协议编程。网页下载的基本流程是:1.获得URL,解析出主机,端口以及资源路径;2.调用DNS解析程序,将URL转换成ip地址;3.建立与目标服务器的tcp连接,并构造http请求报文,请求下载原创 2013-08-29 17:44:38 · 506 阅读 · 0 评论 -
尝试写个爬虫(1)
背景知识URL uniform resource locator 也是平常所说的网页地址。URL是标准的Internet协议,由协议类型,主机名,资源路径等组成。格式为: protocol://hostname[:port]/path/[;parameters][?query]protocal :是协议类型,最常用的是http协议。hostname:主机地址,既可以用ip也可以原创 2013-08-29 12:52:16 · 604 阅读 · 0 评论