Python爬取托福阅读练习题

fangqileo

于 2021-10-10 22:36:58 发布

阅读量221

点赞数

文章标签： python http 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fangqileo/article/details/120693775

版权

相信考托的老铁们都知道题目的可贵，在这里跟大家分享一下托福tpo爬虫，这里爬取的是阅读。

首先设置请求头。ua自行在chrome开发者复制粘贴，这里不赘述。

headers = {
	'Host':'top.zhan.com',
	'Referer':'http://top.zhan.com/toefl/speak/task12.html',
	'User-Agent':'',
}

接下来，定义请求页面函数。第一个参数是题目总页面数值，第二个参数是小题分页面数值。

def get_page(num,q_num):
	url = f'http://top.zhan.com/toefl/read/practicereview-{num}-13-0-{q_num}.html'
	try:
		response = requests.get(url, headers=headers)
		if response.status_code == 200:
			return response.text
	except requests.ConnectionError as e:
		print('Error', e.args)

请求搞定了，就要定义阅读文章获取函数，因为只想获取一遍，所以单独拿出来定义二没有放入循环。这里因为此网站的html解析时有一小部分驴唇不对马嘴，所以用了各种花样来获取相关值。

def get_article(text, q_num):
	doc = pq(text)
	if q_num &#

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬取托福阅读练习题

相信考托的老铁们都知道题目的可贵，在这里跟大家分享一下托福tpo爬虫，这里爬取的是阅读。首先设置请求头。ua自行在chrome开发者复制粘贴，这里不赘述。headers = { 'Host':'top.zhan.com', 'Referer':'http://top.zhan.com/toefl/speak/task12.html', 'User-Agent':'',}接下来，定义请求页面函数。第一个参数是题目总页面数值，第二个参数是小题分页面数值。def get_pag...
复制链接

扫一扫

fangqileo CSDN认证博客专家 CSDN认证企业博客

码龄3年

22: 原创

53万+: 周排名

181万+: 总排名

1万+: 访问

: 等级

283: 积分

29: 粉丝

12: 获赞

8: 评论

54: 收藏

私信

关注

热门文章

分类专栏

tesserocr 1篇

最新评论

Mac M1 环境下安装tesserocr Python 3.9
夜幕.思年华: 为什么我报错 zsh: command not found: pip
【极简代码】Python Plotly Sunburst可视化全国Used Mercedes Benz
胡琵与锡笛: 您好！请问奔驰的相关数据集可以分享吗？我想自用测试代码功能，非常感谢
【Scrapy框架（一）】爬取豆瓣电影
m0_63876894: 为什么结果是这样的 2023-07-09 19:54:27 [scrapy.utils.log] INFO: Scrapy 2.9.0 started (bot: doubanmovie) 2023-07-09 19:54:27 [scrapy.utils.log] INFO: Versions: lxml 4.6.3.0, libxml2 2.9.10, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.1, Twisted 22.10.0, Python 3.8.8 (default, Apr 13 2021, 15:08:03) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 23.2.0 (OpenSSL 3.1.1 30 May 2023), cryptography 41.0.1, Platform Windows-10-10.0.19041-SP0 Usage ===== scrapy crawl [options] <spider> Run a spider Optional Arguments ================== -h, --help show this help message and exit -a NAME=VALUE set spider argument (may be repeated) -o FILE, --output FILE append scraped items to the end of FILE (use - for stdout), to define format set a colon at the end of the output URI (i.e. -o FILE:FORMAT) -O FILE, --overwrite-output FILE dump scraped items into FILE, overwriting any existing file, to define format set a colon at
Mac M1 环境下安装tesserocr Python 3.9
ll3o3: 牛逼终于解决！
Mac M1 环境下安装tesserocr Python 3.9
weixin_51492385: 太感谢了，找了一天终于找到了真正的解决办法

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。