python 抓取网页链接_从Python中的网页抓取链接

cumtb2002

于 2020-07-23 13:30:33 发布

阅读量4.4k

点赞数 1

文章标签： http ajax https python 安全

版权

本文介绍了使用Python的urllib3和BeautifulSoup库抓取网页链接的方法，包括安装库、打开URL、解析HTML以及提取标签的href属性。

python 抓取网页链接

Prerequisite:

先决条件：

Urllib3: It is a powerful, sanity-friendly HTTP client for Python with having many features like thread safety, client-side SSL/TSL verification, connection pooling, file uploading with multipart encoding, etc.
Urllib3 ：这是一个功能强大，对环境友好的Python HTTP客户端，具有许多功能，例如线程安全，客户端SSL / TSL验证，连接池，使用多部分编码的文件上传等。

Installing urllib3:
安装urllib3：
```
    $ pip install urllib3
```
BeautifulSoup: It is a Python library that is used to scrape/get information from the webpages, XML files i.e. for pulling data out of HTML and XML files.
BeautifulSoup ：这是一个Python库，用于从网页，XML文件中抓取/获取信息，即从HTML和XML文件中提取数据。

Installing BeautifulSoup:

关注