应表哥要求给侄子爬取一点英语练习题作为寒假附加作业
爬取内容如下
网址如下
# https://xiaoxue.hujiang.com/xsc/yingyu/p342265/ # https://xiaoxue.hujiang.com/xsc/yingyu/p342290/
区别为最后的p342265到p342290
而且网页为静态网页,所需内容在p标签内(有一点点是不需要的)
代码如下:
#导入所需要的模块
import time
import requests
import re
#访问的url
url='https://xiaoxue.hujiang.com/xsc/yingyu/p3422%s/'
#设置windows代理头
headers = {
'user-agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'
}
#循环填充并爬取
for i in range(65,91):
respone=requests.get(url%i,headers=headers,timeout=3)
ti