学习目标:了解url的规律,并学会运用。
这次我们来了解url。
一、开头
开头一般表示网页的类型,如:http://表示没有ssl的网页而https://表示有;file://表示一个html文件等。
二、域名和端口
url开头之后一般以xxx.xxxx.xxx的形式出现,以.隔开两段,段数不一,一般后两段为网络域名,如是三段及以上,前几段表示某个应用。还有一种是以xxx.xxx.xxx.xxx:xxxx出现的,在:前面是服务ip之后则是端口号。
三、路径
其实网站服务器的虚拟环境也是一个文件夹,而有时从一个文件跳转到另一个文件,路径就变了,在中间一段过后可能会有一段路径,这个不太重要,了解即可。
四、参数
有时路径后还会有一个?,我们如果将它复制下来仔细观察,会发现它也类似 Python字典用=隔开键值,用&隔开键值对,其实这就是传入的params或data被处理成了cookie的形式, 添加在了url的末尾。
五、实例
1.爬取头像的程序
这个实例主要是研究url的文件路径:
先将我自己的头像url复制下来