利用python爬虫抓取OJ上做题信息（扩展版）

最新推荐文章于 2024-08-02 21:44:28 发布

bobopeng

最新推荐文章于 2024-08-02 21:44:28 发布

阅读量2.1k

点赞数 1

分类专栏： python 爬虫研究

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/junbopengpeng/article/details/18257787

版权

本文介绍了如何使用Python的urllib和urllib2模块配合正则表达式抓取在线编程平台（OJ）上的题目信息。通过编写合适的正则表达式，打开网页并读取内容，再用findall函数提取所需信息，实现了数据的抓取和处理。程序具有良好的扩展性，可灵活适应不同OJ和题目数量的需求。

摘要由CSDN通过智能技术生成

网络爬虫主要是抓取指定的html网页后从获取到的网页中利用正则表达式提取我们需要的信息。Python给我提供了几个模块供我们使用，在源代码中可以看到它们的用法。

利用用python的urllib和urllib2模块实现网络爬虫比较简单：

a、写出合适的正则表达式

b、用urllib2的urlopen函数打开指定的网页并将网页内容读取到字符串中

c、用re模块的findall查找和正则表达式相匹配的内容、并将内容记录到list中

d、处理list中的数据

1.

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。