网络编程Socket

什么是TCP/IP、UDP
Socket是什么
python socket 超时设置 “errno10054”

什么是TCP\IP、UDP

  TCP(Transmission Control Protocol 传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议,由IETF的RFC 793定义。
  IP英文Internet Protocol的缩写,意思是“网络之间互连的协议”,也就是为计算机网络相互连接进行通信而设计的协议。在因特网中,它是能使连接到网上的所有计算机网络实现相互通信的一套规则,规定了计算机在因特网上进行通信时应当遵守的规则。任何厂家生产的计算机系统,只要遵守IP协议就可以与因特网互连互通。正是因为有了IP协议,因特网才得以迅速发展成为世界上最大的、开放的计算机通信网络。因此,IP协议也可以叫做“因特网协议”。
  详情请参考
     1. 掘金:一篇文章带你熟悉 TCP/IP协议
     2. 知乎:TCP/IP协议到底在讲什么?

  TCP/IP(Transmission Control Protocol/Internet Protocol)即传输控制协议/网间协议,是一个工业标准的协议集,它是为广域网(WANs)设计的。
   UDP(User Data Protocol,用户数据报协议)是与TCP相对应的协议。它是属于TCP/IP协议族中的一种。
协议之间的关系
在这里插入图片描述
  TCP/IP协议族包括运输层、网络层、链路层。了解TCP/IP与UDP的关系之后。那Socket在哪里?
如下图
在这里插入图片描述
那网络中进程之间如何通信?
  首要解决的问题是如何唯一标识一个进程,否则通信无从谈起!在本地可以通过进程PID来唯一标识一个进程,但是在网络中这是行不通的。其实TCP/IP协议族已经帮我们解决了这个问题,网络层的“ip地址”可以唯一标识网络中的主机,而传输层的“协议+端口”可以唯一标识主机中的应用程序(进程)。这样利用三元组(ip地址,协议,端口)就可以标识网络的进程了,网络中的进程通信就可以利用这个标志与其它进程进行交互。

  使用TCP/IP协议的应用程序通常采用应用编程接口:UNIX BSD的套接字(socket)和UNIX System V的TLI(已经被淘汰),来实现网络进程之间的通信。就目前而言,几乎所有的应用程序都是采用socket,而现在又是网络时代,网络中进程通信是无处不在,“一切皆socket”。

Socket是什么

在说明Socket之前,先了解一下网络编程的概念

  网络编程是对信息的发送和接受。
  发送端:将信息以规定的协议组装成数据包
  接收端:对收到的数据包解析,以提取所需要的信息

  Socket的英文原义是“孔”或“插座”。作为BSD UNIX进程通信机制,取后一种意思。通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄,可以用来实现不同虚拟机或不同计算机之间的通信。

  Socket定义:网络上的两个程序通过一个双向的通信连接,实现数据的交换,这个链接的一端称为一个Socket。

  建立网络通信连接至少要一对端口号(Socket)。Socket本质就是编程接口(API),对于TCP/IP的封装,TCP/IP也要提供可供程序员做网络开发所用的接口,这就是Socket编程接口;HTTP是轿车,提供了封装或者显示数据的具体形式;Socket是发动机,提供了网络通信的能力

  在Internet上的主机一般运行了多个服务软件,同时提供几种服务。每种服务都打开一个Socket,并绑定到一个端口上,不同的端口对应于不同的服务。Socket正如其英文原义那样,像一个多孔插座。一台主机犹如布满各种插座的房间,每个插座有一个编号,有的插座提供220伏交流电, 有的提供110伏交流电,有的则提供有线电视节目。 客户软件将插头插到不同编号的插座,就可以得到不同的服务。

详情请参考wiki的network socket

  下面看一下TCP客户端和TCP服务器端的工作流程图
在这里插入图片描述
  先从服务器端说起。服务器端先初始化Socket,然后与端口绑定(bind),对端口进行监听(listen),调用accept阻塞1,等待客户端连接。在这时如果有个客户端初始化一个socket,然后连接服务器(connect),如果连接成功,这时客户端与服务器端的连接就建立了。客户端发送数据请求,服务器端接收请求并处理请求,然后把回应数据发送给客户端,客户端读取数据,最后关闭连接,一次交互结束。

python socket 超时设置 “errno10054”

python socket.error: [Errno 10054] 远程主机强迫关闭了一个现有的连接。

问题描述:

  使用python读取网页,因为对一个网站大量的使用urlopen操作,所以会被网站认定为攻击行为。有时候就会不再允许访问或者下载,导致urlopen()后,request.read()一直卡死在那里。最后会抛出[Errno 10054] 这个错误是connection reset by peer。也就是服务器端重置了此连接,原因可能是socket超时时间过长;也可能是request=urllib.request.urlopen(url)之后,没有进行request.close操作;也可可能是没有sleep几秒,导致网站认定这种行为是攻击。
具体解决方案如下面代码

import socket  
import time  
timeout = 20    
socket.setdefaulttimeout(timeout)#这里对整个socket层设置超时时间。后续文件中如果再使用到socket,不必再设置  
sleep_download_time = 10 

def downloadHtml(url):
	try:  
	    time.sleep(self.sleep_download_time)  
	    request = urllib.request.urlopen(url)  
	    content = request.read()  
	    request.close()  
	    
	except UnicodeDecodeError as e:  
	    print('-----UnicodeDecodeErrorurl:',url)  
	    
	except urllib.error.URLError as e:  
	    print("-----urlErrorurl:",url)  
	 
	except socket.timeout as e:  
	    print("-----socket timout:",url) 

  因为urlopen之后的read()操作其实是调用了socket层的某些函数。所以设置socket缺省超时时间,就可以让网络自己断掉。不必在read()处一直等待。

  如果是下载成千上万的,我做了下测试,ms还是会跳出这个异常。可能是 time.sleep()的时间太短,也可能是网络突然中断。我使用urllib.request.retrieve()测试了一下,发现不停的下载数据,总会有失败的情况出现。针对此问题,先做一个检查点,然后将以上会抛出异常的那段代码while True 一下。参考下面代码

def Download_auto(url,sleep_time=15):  
    while True:          
        try: # 外包一层try   
            value = downloadHtml(url,sleep_time) # 这里的downloadHtml是你的下载函数
           # 只有正常执行方能退出。  
            if value == Util.SUCCESS:  
                break 
        except : 
            # 如果发生了10054或者IOError或者XXXError  
            sleep_time += 5 #多睡5秒,重新执行以上的download.因为做了检查点的缘故,上面的程序会从抛出异常的地方继续执行。防止了因为网络连接不稳定带来的程序中断。  
            print('enlarge sleep time:',sleep_time) 

  1. 【阻塞和非阻塞】
      阻塞函数在完成其指定的任务以前不允许程序调用另一个函数。例如,程序执行一个读数据的函数调用时,在此函数完成读操作以前将不会执行下一程序语句。当服务器运行到accept语句时,而没有客户连接服务请求到来,服务器就会停止在accept语句上等待连接服务请求的到来。这种情况称为阻塞(blocking)。而非阻塞操作则可以立即完成。比如,如果你希望服务器仅仅注意检查是否有客户在等待连接,有就接受连接,否则就继续做其他事情,则可以通过将Socket设置为非阻塞方式来实现。非阻塞socket在没有客户在等待时就使accept调用立即返回。 ↩︎

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值