今天发现了一个很好玩的东西~
http://www.heibanke.com/lesson/crawler_ex00/
打开这个页面以后你会发现他会一直叫你在它的URL上进行操作改变数字,然后我就照着他说的做一直改一直改........直到它提示可能有很多数字还等着我输入,我意识到这不是个普通的操作
我们回到刚开始的界面并且查看它的源代码可以发现这个
按照他说的再输入他要的数字并且查看新的页面的网页源代码可以发现
于是我们就大概能知道他接下来几个网页的源代码是怎么样的了。我们可以写一个正则表达式匹配一下
import urllib.request
import re
url=urllib.request.urlopen("http://www.heibanke.com/lesson/crawler_ex00/")
html=url.read()
index=re.findall(r'输入数字([0-9]{5})',html.decode('utf-8'))
while index:
url='http://www.heibanke.com/lesson/crawler_ex00/%s/' % index[0]
print(url)
tem=urllib.request.urlopen(url)
html=tem.read().decode('utf-8')
index=re.findall(r'数字是([0-9]{5})',html)
print(html)
运行程序以后几秒钟以后就能得到
找到上方最后一个URL就可以啦~