视频学习链接
我感觉按顺序下去听,有点注意力不集中了,想换个思路
废话不多说,开始吧
- 预备知识
URL
URL是Web服务器的地址,也称网址。它是一种访问Internet上信息资源的方法。浏览者通过本地浏览器发送URL到Web服务器中,Web服务器则将所需的资源调出并发送到本地浏览器供用户浏览。
HTTP
HTTP是一种在网络中传输数据的协议,是用于从Web服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减少。它不仅保证超文本文档正确、快速地传输,还确定传输文档中的哪一部分,以及哪部分内容首先显示。
HTML
HTML是一种用于编写网页的主要标记语言,是WWW中描述页面内容和结构的标准语言。用HTML语言编写的文档称为HTML文档,它是纯文本文件。
论一只爬虫的自我修养
web spider
- python如何访问互联网
url+lib=urllib
url是网页地址,[]为可选项
一般格式是 protocol://hostname[:port]/path/[;parameters][?query]#fragment
url由三部分组成,第一部分:http,https,ftp,file,ed2k
第二部分:域名系统或者IP地址(有时候要包括端口号)
第三部分是资源的具体地址,如目录或者文件名
lib是library