来源
抓取
从首页https://www.e1w.net/的类别定位url具体不同值。
import requests
import re
res=requests.get('https://www.e1w.net/').text
list=re.compile('<li><a href="/list/(\d{1,2})_1\.html">.*?</a></li>').findall(res)
for i in list:
print(i)
显示
['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
然后再看1_1.html及其他的下面页面代码
发现其中的规律,抓取总页数。
l=[]
for i in list:
url='https://www.e1w.net/list/'+i+'_1.html'
res=requests.get(url).text
num=re.compile('<a href="https://www.e1w.net/list/\d{1,2}_(\d{1,3}).html" class="last">').findall(res)[0