Python爬虫闯关-1

第一关

第一关网址:
http://www.heibanke.com/lesson/crawler_ex00/

第一关很简单,就是把当前页面的数字加到网址后面,然后再新页面再循环操作。

步骤

  • 先访问初始网址,也就是http://www.heibanke.com/lesson/crawler_ex00/
  • 然后用re(正则表达式)或者BeatuifulSoup或者xpath取得当前网页中的数字,我用的是re
  • 然后将数字加入到url
  • 如此循环,大概几十次后,会出来一个结束界面,告诉你成功了

代码

import requests
import re
import time
def add_number_to_url(num):
	url='http://www.heibanke.com/lesson/crawler_ex00/'+str(num)
	#用requests库中的get请求
	response = requests.get(url)
	#得到html页面
	html = response.text
	#写一个正则表达式
	#正则表达式教程可以去网上搜搜,这里就不多说了
	patter = re.compile('<h3>.*?(\d+).*?</h3>', re.S)
	nums = re.findall(patter, html)
	#正则表达式匹配返回到结果是个列表,如果列表为空,就说明已经到了最后闯关成功界面了
	if len(nums)>0:
		#取出数字
		print(nums[0])
		#设置一下延时,不设置也没关系
		time.sleep(0.01)
		#函数进行递归,把数字传入,继续访问新链接
		add_number_to_url(nums[0])
	else:
		#当列表为空时,闯关成功,打印闯关成功的界面
		print('ok')
		print(html)
if __name__ == "__main__":
	num = ''
	add_number_to_url(num)

结语:

源码: 点我

欢迎关注我的公众号 疯子的Python笔记

公众号二维码.jpg

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值