python刷题软件_教你用python写:HDU刷题神器

声明:本文以学习为目的,请不要影响他人正常判题

HDU刷题神器,早已被前辈们做出来了,不过没有见过用python写的。大一的时候见识了学长写这个,当时还是一脸懵逼,只知道这玩意儿好屌…。时隔一年,决定自己实现这个功能。

1150273-20170812075636882-766240753.png

刷到第13名,AC率不高,因为,搜索引擎搜到的结果,往后就很难找到正确的代码了

首先对辛苦刷题的acmer和hdu的管理员道歉,各位,抱歉。

介绍整体思路:

整体用多线程:线程执行从爬代码到提交的全部过程

分层次:对搜索引擎搜索的结果,进行划分,分层爬取

局部思路:

爬取搜索引擎得到的与题目相关的url,得到url_list

爬取url_list中的url,扒到代码就提交

检查提交结果,WA之后继续爬取url_list中的代码

循环,直到列表为空或者AC

相关模块:

threadpool线程池,分配线程任务,多线程并发提交代码

用requests模块发送请求

正则爬取url和代码

Sqlite存放AC代码(打表啊,再申请个账号从数据库中提交代码100%AC)

1)采用线程池实现多线程,注意控制最大并发数量

搜索引擎使用CSDN的搜索,因为我们爬取的代码全都来自CSDN的博客,可以看一下其他论坛,博客的代码:

1150273-20170809193820292-1852784438.png

(右键,在新标签页中打开查看高清图片)

1150273-20170809194028792-201798104.png

1150273-20170809193945730-1858009517.png

(右键,在新标签页中打开查看高清图片)

1150273-20170809194007511-532314881.png

哦,这实在太不友好了,而CSDN博客的代码就好很多了(尽管很友好了,class和name有些先后顺序不一样,也会添乱)

1150273-20170809194149183-541437815.png

所以,我们决定扒CSDN博客的代码。

搜索引擎的选择,CSDN(部分搜索结果是百度提供的)

1150273-20170809194426152-1985754804.png

其实,第一想到的是百度的,然而。。。

1150273-20170809194750120-2116183624.png

加密了,增大了我们的工作量,所以,就直接用CSDN的(也有百度的结果)

在CSDN搜索结果的最下方,我们可以看到上图中有14W结果(好唬人啊),其实事情是这样的:

1150273-20170809195207152-1379733715.png

1150273-20170809195108980-401838251.png

这是一个搜索hdu 1000的url,我们注意到用的get()方法传数据,发现只有p=?,试一下就知道,这个是页码。如果页码改为200呢?

1150273-20170809195338105-1223955823.png

100?

1150273-20170809195418324-1308180713.png

开玩笑啊,14W结果呢?最后我们得出结论:搜索结果只有76页,而且越往后,得到我们想要代码的可能性就越小,所以我只爬到20页就结束程序

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值