记一次网页数据抓取经历——杭电ACM离线题库制作

本文记录了一次制作杭电ACM离线题库的过程,包括遍历所有题目页面,剔除重复内容,修改标题格式,保存HTML以及最后用Easy CHM生成CHM文件。通过JQuery和Jsoup实现网页抓取和内容筛选。
摘要由CSDN通过智能技术生成

先放效果图:


制作过程:

遍历所有页面

不多说,从1000到4955题(杭电题目不断增加中)

页面url规则:http://acm.hdu.edu.cn/showproblem.php?pid=<题号>

剔除页面中重复内容

使用JQuery方式选中页面中重复内容,并将其删除掉,从而使题库体积更小、页面更简练。

这里可以使用FireBug的jQuerify插件在控制台来做试验,执行效果一目了然,弄错了刷新一遍即可恢复。

$('body>table>tbody>tr:not(body>table>tbody>tr:eq(3))').remove();

在Java中使用Jsoup包即可完成同样任务。

修改标题

杭电题目页的title的格式是:Problem -  <题号>,很不直观,我希望的格式是:<题号> - <题目名>。

$('title'
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值