Python爬取托福阅读练习题

相信考托的老铁们都知道题目的可贵,在这里跟大家分享一下托福tpo爬虫,这里爬取的是阅读。

首先设置请求头。ua自行在chrome开发者复制粘贴,这里不赘述。

headers = {
	'Host':'top.zhan.com',
	'Referer':'http://top.zhan.com/toefl/speak/task12.html',
	'User-Agent':'',
}

接下来,定义请求页面函数。第一个参数是题目总页面数值,第二个参数是小题分页面数值。

def get_page(num,q_num):
	url = f'http://top.zhan.com/toefl/read/practicereview-{num}-13-0-{q_num}.html'
	try:
		response = requests.get(url, headers=headers)
		if response.status_code == 200:
			return response.text
	except requests.ConnectionError as e:
		print('Error', e.args)

请求搞定了,就要定义阅读文章获取函数,因为只想获取一遍,所以单独拿出来定义二没有放入循环。这里因为此网站的html解析时有一小部分驴唇不对马嘴,所以用了各种花样来获取相关值。

def get_article(text, q_num):
	doc = pq(text)
	if q_num &#
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值