每当我决定创建一个宠物 Python 项目来抓取一些数据时,它总是从创建一个 Browser 类开始,该类实际上将数据发送到 Internet 并从 Internet 请求它。
在本文中,我将带您创建自己的 Browser 类,该类将涵盖 99% 的 Web Scraping 用例。
第 1 步:设置
我将使用 Python 3.7。
为了实际执行我们的 HTTP(S) 操作,我将使用该requests
库(我使用的是 2.27.1 版本,但最新版本很可能可以正常工作)。
这几乎就是我们所需要的!
第 2 步:创建类
让我们开始写我们的Browser
课程吧。当然,我们将从声明我们的新类并导入requests
包开始:
import requests
class Browser:
pass
在大多数 Web Scraping 情况下,您将使用其中一个GET
或POST
请求。对我们来说幸运的是,requests
package 轻松地提供了这两种方法。
让我们在Browser
类上定义允许调用访问这些方法的新方法:
import requests
class Browser:
def get(self, url):
return requests.get(url)
def post(self, url, data=None):
return requests.post(url, data=data)