【Python 爬虫基础】初见 Python 网络爬虫(1)

最新推荐文章于 2024-10-03 09:02:12 发布

2401_84008985

最新推荐文章于 2024-10-03 09:02:12 发布

阅读量543

点赞数 14

分类专栏：程序员文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/2401_84008985/article/details/137519271

版权

程序员专栏收录该内容

270 篇文章 3 订阅

订阅专栏

A 的服务器读取数据包请求头里的目标端口，然后把它传递到对应的应用——网络服务器应用。（目标端口通常是网络应用的 80 端口，可以理解成数据包的“房间号”，IP 地址就是“街道地址”）
网络服务器应用从服务器处理器收到一串数据，数据是这样的：
— 这是一个 GET 请求。
— 请求文件 Index.html
网络服务器应用找到对应的 HTML 文件，把它打包成一个新的数据包发送给 B ，然后通过它的本地路由器发出去，用同样的过程回传到 B 的机器上。

我们就这样实现了互联网。

但是在这场数据交换中，Web 浏览器完全没有参与。的确，Web 浏览器是一个非常有用的应用，它创建信息的数据包，命令操作系统发送它们，然后把你获取的数据解释成漂亮的图像、声音、视频和文字。但是，Web 浏览器就是代码，而代码可以分解成许多基本组件，可重写、重用，以及做成我们想要的任何东西。

Web 浏览器可以让处理器将数据发送到那些对接无线（或有线）网络接口的应用上，但是你可以用短短的 3 行 Python 代码实现这些功能：

from urllib.request import urlopen

html = urlopen('http://pythonscraping.com/pages/page1.html')
print(html.read())

你可以把上面这段代码保存为 scrapetest.py，然后在终端运行如下命令：

  python scrapetest.py

这将会输出http://pythonscraping.com/pages/page1.html这个网页的全部 HTML 代码。更准确地说，这会输出在域名为 http://pythonscraping.com 的服务器上 < 网络应用根地址 >/pages 文件夹里的 HTML 文件 page1.html 的源代码。

为什么将这些地址理解为“文件”而不是“页面”非常关键呢？现在大多数网页需要加载许多相关的资源文件，可能是图像文件、JavaScript 文件、CSS 文件，或你需要连接的其他各种网页内容。当 Web 浏览器遇到一个标签时，比如: