python 抓取网上OJ试题

学校工作需要,需架设一台内网OJ服务器,采用了开源的hustoj.试题下载了hustoj的freeprblem的xml文件。导入时出现很多错误,不知什么原因。另外要将历年noip复赛试题加上去,但苦于历年noip的xml文件只有3、4个。cogs上有几乎全部的历年noip于是想到了用python+pyquery抓取后转化成xml。至于不选beautifulsoup而选pyquery是感觉pq语法接近jquery,使用起来比较方便,而且速度可能更快!

ver0.9已经完成,但是由于cogs的格式没有统一,自己经验不足,发现有很多错误,有待进一步改进!

ver1.0打算主要改正这些错误,尽量使得试题抓取无误。以后可以考虑数据抓取,导入问题

转载于:https://www.cnblogs.com/nbalive2001/p/4064167.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值