1.python如何访问互联网:
它自带电池。“URL” + “lib” =urllib
2.URL的一般格式为:
Protocol://hostname[:port]/path/[;partmeters][?query]#fragment
有三部分构成:
-----第一部分是协议:http,https,ftp,file等~
-----第二部分是存放资源的服务器的域名系统或者IP地址,该地址后有端口号默认是80
-----第三部分是资源的具体地址,可能为目录或者文件名
3. python 中 urllib 模块:
python 3.4 官方文档是这样介绍urllib的,Handles the rename of urllib and urllib2 to the urllib package。urllibis a package that collects several modules for working with URLs:
- urllib.request for opening and reading URLs
- urllib.error containing the exceptions raised by urllib.request
- urllib.parse for parsing URLs
- urllib.robotparser for parsing robots.txt files
这四个模块为:request,error,parse,robotparser.
4.尝试一把 urllib.request 模块:
该返回的代码是二进制形式,最好转换成“utf-8”的形式。
使用 decode(‘utf-8’)即可,参考代码如下: