pyhton爬虫基础
万维网
万维网是一个大规模的、联网式的信息储藏所,英文简称为Web。
万维网使用链接的方法能非常方便地从因特网上的一个站点访问另一个站点(也就是链接到另一个站点),从而主动地按需获取丰富的信息。
万维网是一个分布式的超媒体(hypermedia)系统,它是超文本(hypertext)系统的扩充。所谓超文本就是包含其他文档的链接的文本。也就是说,一个超文本由多个信息源连接而成,利用一个链接可以使用户找到其他文档,而这又可以连接到其他的文档。超文本就是万维网的基础。
万维网以客户-服务器方式工作。浏览器其实就相当于一个客户端,它可以向服务器发送访问请求。万维网文档所驻留的主机则运行服务器程序,因此这个主机也被称为万维网服务器。
客户程序(浏览器)向服务器程序发送请求,服务器程序向客户程序送回客户所要的万维网文档。
可以看出,万维网必须解决以下几个问题:
(1)怎样标志分布在整个因特网上的万维网文档?
(2)用什么样的协议来实现万维网上的各种链接?
(3)怎么样才能使不同作者创建不同风格的文档,并且可以在因特网上的各种主机上显示出来?
为了解决第一个问题,万维网使用统一资源定位符URL(Uniform Resource Locator)