第一关
第一关很简单,就是把当前页面的数字加到网址后面,然后再新页面再循环操作。
步骤
- 先访问初始网址,也就是http://www.heibanke.com/lesson/crawler_ex00/
- 然后用re(正则表达式)或者BeatuifulSoup或者xpath取得当前网页中的数字,我用的是re
- 然后将数字加入到url
- 如此循环,大概几十次后,会出来一个结束界面,告诉你成功了
代码
import requests
import re
import time
def add_number_to_url(num):
url='http://www.heibanke.com/lesson/crawler_ex00/'+str(num)
#用requests库中的get请求
response = requests.get(url)
#得到html页面
html = response.text
#写一个正则表达式
#正则表达式教程可以去网上搜搜,这里就不多说了
patter = re.compile('<h3>.*?(\d+).*?</h3>', re.S)
nums = re.findall(patter, html)
#正则表达式匹配返回到结果是个列表,如果列表为空,就说明已经到了最后闯关成功界面了
if len(nums)>0:
#取出数字
print(nums[0])
#设置一下延时,不设置也没关系
time.sleep(0.01)
#函数进行递归,把数字传入,继续访问新链接
add_number_to_url(nums[0])
else:
#当列表为空时,闯关成功,打印闯关成功的界面
print('ok')
print(html)
if __name__ == "__main__":
num = ''
add_number_to_url(num)
结语:
源码: 点我
欢迎关注我的公众号
疯子的Python笔记