一只爬虫带你看世界【1】

本文介绍了Python中使用urllib模块进行网络编程的基础知识,包括URL的标准格式及其组成部分,并详细讲解了urllib模块的四个核心子模块:request、error、parse及robotparser的功能与用法。
摘要由CSDN通过智能技术生成

1.python如何访问互联网:

   它自带电池。“URL” + “lib” =urllib

2.URL的一般格式为:

   Protocol://hostname[:port]/path/[;partmeters][?query]#fragment

有三部分构成:

-----第一部分是协议:http,https,ftp,file等~

-----第二部分是存放资源的服务器的域名系统或者IP地址,该地址后有端口号默认是80

-----第三部分是资源的具体地址,可能为目录或者文件名

3. python 中 urllib 模块:

python 3.4 官方文档是这样介绍urllib的,Handles the rename of urllib and urllib2 to the urllib package。urllibis a package that collects several modules for working with URLs:

翻译为:python3.4 中urllib 是urllib 和urllib 2 的重命名的包,该包主要有以下四个模块构成,并且这些模块通常和 url 一起使用,

这四个模块为:request,error,parse,robotparser.


4.尝试一把 urllib.request 模块:

该返回的代码是二进制形式,最好转换成“utf-8”的形式。

使用 decode(‘utf-8’)即可,参考代码如下:




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值