基于超星网页阅读的在线阅读的书籍下载软件,java实现。

最近在做一个超星图书下载,由于早些年有位前辈破解超星之后,超星的保密工作变的更强了,当然我也看了那个前辈的文章不过不知道他是怎么突破超星限制的,也不知道他是怎么下载的。我之所以想做这个是老师需要的。本来打算通过程序下载学校的超星图书馆的图书的,研究了一个星期发现没法下手。后来转向超星网上书店,由于超星网上也有很多图书并且可以在线阅读,仔细分析了一两个星期的网页源代码终于找到一种可以下载的方法,虽然现在软件还没有完全实现。下面说下具体实现。

超星图书网址:http://book.chaoxing.com .上面的图书是可以在线试读的即网页阅读,VIP图书只能免费读前17页,有些还不能在线阅读,当然不要这些不能在线阅读的方式图书。凡是能在线阅读的图书就能把内容抓取下来。

先介绍下实现原理:

网页分析工具:JSOUP 1.7,具体介绍百度很多。正则表达式,我正则很差,大部分都是百度的。

由于开始我做的是基于整个的超星网站的所有的图书的抓取,需要所有的图书连接,其实想要下载特定的一本图书是比较简单的。只要知道图书的连接就能下载下来。

整个网页图书连接的抓取:这个过程是采用网络爬虫程序进行的,通过对超星网页的解析获得每个分类,再根据分类去抓取该分类里所有的图书连接,我估计了下整个超星网站大约有20W本图书。可能是我的多线程程序有错误了,连续跑了两天才抓了10W本书的连接就不行了,不过这也够用了。

先写这些吧,发现思路好乱,整理整理思路再写

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值