python核心编程之Web客户端和服务器

Web客户端和服务器

Web客户端和服务器交互需要用到特定的语言,HTTP(超文本传输)协议,HTTP是TCP/IP的上层协议,HTTP依靠TCP/IP来进行底层的交流工作,通过发送、接收HTTP消息来处理客户端的请求

HTTP属于无状态协议

为了对传输数据进行加密,需要在普通的套接字上添加一个额外的安全层,称为安全套接字层

防火墙组织对工作网络未授权的访问

代理服务器,网络管理员可以只让一部分计算机访问网络,也可以更好的监控网络的数据传输;缓存数据

正向代理用来处理缓存数据,接近客户端;反向代理接近后端服务器,缓存服务器的数据、负载平衡,防火墙或加密数据等

Web客户端工具

URL(统一资源定位符),用来在Web上定位一个文档,或者调用一个CGI程序来为客户端生成一个文档

urlparse模块

处理字符串,主要功能包括urlparse()、urlunparse()和urljoin()

urlparse.urlparse()

urlparse()将URL字符串拆分成前面描述的一些主要组件

urlparse()将urlstr解析成一个6元组

urlparse.urlunparse()

其将经urlparse()处理的URL生成durltup这个6元组,拼接成URL并返回

urlparse.urljoin()

处理多个相关的URL,取得根域名,并将其根路径与newurl连接起来

urlib模块

可用于从指定URL下载数据,也可以对字符串进行编码、解码工作

urlib.urlopen()

打开一个给定URL字符串表示的Web连接,并返回文件类型的对象

一旦连接成功,urlopen()将会返回一个文件类型对象

如果文件对象是f,f.info()可以返回MIME(多目标因特网邮件扩展)头文件。这个头文件通知浏览器返回的文件类型,以及可以用哪类应用程序打开

在python 3 需要使用urllib.request.urlopen()函数

urlib.urlretrieve()

下载完整的HTML,另存为文件

urlib.quote()

获取URL数据,并将其编码,使其可以用于URL字符串中

urlib.unquote()

将所有编码的字符转换成等价的ASCII码值

urlib.encode()

将字典的键值对通过quote_plus()编译成有效的CGI查询字符串,用quote_plus()对这个字符串进行编码

一个简单的Web爬虫

目的:为谷歌等大型搜索引擎创建索引;离线浏览,将文档下载到本地硬盘,重新设定超链接;缓存Web页面;下载并保存历史记录或归档

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值