首先,我们需要拿到一个网页的全部内容
例如:
url = 'http://example.webscraping.com/'
# 1
from urllib import request
html = request.urlopen(url)
print(html.read())
# 2
from requests import get
html = get(url)
print(html.text)
# 3
from pyquery import PyQuery as pq
html = pq(url)
print(html)
这3种方法都可以简单地拿到一个网页的内容,urllib是python3自带的库,requests和pyquery是第三方库,需要安装(pip install requests/pyquery)一般来讲,新手推荐使用自带的urllib,根据一些大神的测试,requests库的效率会比urllib高,另外pyquery虽然可以拿到网页内容,但一般是用来作为解析工具所以个人建议使用urllib和requests库