CSDN博文下载器(JAVA)

自己用JAVA做的CSDN博文下载器,提供jar包和源码。

源码也公开吧,反正jar反编译也能得到源码,新手不会jar加密。


下载:http://download.csdn.net/detail/owuguanfengyue123/8619649

资源csdn在审核吧...好慢


考虑到上课的时候看博客不方便,想把好的博客全部下载下来,在手机上看。

各种百度,找到了几个工具。

1.http://blog.csdn.net/gzshun/article/details/7555525

大神写了思路和教程,用他的工具发现的问题:

(1)下载不完全,测试只能下载第一页的21篇文章左右。

(2)生成的pdf看着还行,代码部分有的超出pdf页面范围,导致看不到,不方便

2.http://www.cr173.com/soft/48129.html

这个大神写的通用博客导出工具,好像接口有变化,失效了,导出不了。


我就在琢磨自己写个程序出来。

好了,有了http://blog.csdn.net/gzshun/article/category/932960 前辈的思路。

扩展了一下,自己的思路:

(1)电脑版改为手机版

个人感觉手机版csdn更精简,处理起来肯定方便,链接是http://m.blog.csdn.net/blog,后面加用户名就是该用户的博客了,这里要区别用户名和自定义域名,电脑版的博客链接一般是自定义域名,例如:我的电脑版csdn博客自定义域名是:noaboutfengyue,我的用户名是:oWuGuanFengYue123,电脑版中http://blog.csdn.net/加这两个都可以跳转到博客,但是在手机版中只能访问 http://m.blog.csdn.net/blog/oWuGuanFengYue123打开博客。

为了使用方便,程序只需读入自定义域名就能下载,所以,增加个方法,功能是通过域名获得用户名,实现很简单,打开http://blog.csdn.net/noaboutfengyue,源码中就有oWuGuanFengYue123用户名,通过正则表达式解析就Ok。

(2)采用ITEXT从html生产pdf

在http://blog.csdn.net/noaboutfengyue/article/details/45174787中已经说明

(3)获取所有文章列表

经测试发现http://m.blog.csdn.net/blog/oWuGuanFengYue123?page= 这个page是文章页数,当这个数字很大时,大过文章页数,取个极限,99999,http://m.blog.csdn.net/blog/oWuGuanFengYue123?page=999999,显示的就是所有文章

(4)文章列表的获取和文章内容的解析

在(3)中获取的页面,通过正则表达式,解析出所有文章标题和url,然后通过这个url得到html源码,由于使用IText,对html源码的格式要求很严,所以这里要进行预处理(这里做的有点不完善),比如<br>报错,必须改成<br/>,还有一些,然后直接转换成pdf输出。

(5)增加序号

为了使生成出来的pdf有序,按照作者第一篇博文开始编号。生成出来的文件名是  1.标题.pdf


思路大概就这些,细节方面有些要处理。

使用说明:

下载目录在当前程序目录/csdn/用户名


演示一下吧。

用http://m.blog.csdn.net/blog/lmj623565791 这个老师的来演示,博客写得很好。



处理过程显示:


还是有些地方处理的不完善,大致上处理还不错,能生成大部分pdf。

结果:


就这样了,哈哈,世界清净了。

不说了,我去下载好的博客去了,上课了去看。


本程序用java编写,运行的时候需要JDK1.5或以上环境,无需安装。程序通过分析CSDN博客源码来生成一些必要的数据,可能在以后使用当中出现爬取不了的情况,可能是CSDN的源码结构修改了。程序只是用于学习之用,严禁用于非法目的而照成CSDN服务过载。 由于生成PDF的时候需要依赖字库,所以在打包程序的时候把一些必要的字库已经放到程序中去了。可能在生成一些PDF文件的时候出现乱码问题,那是因为里面缺少需要的字库,如遇到这个问题,请和本人联系wyphao.2007@163com #################################################### 程序功能: 1、支持输入CSDN博客用户名针对性下载 2、支持选择保存下载的文件 保存的结构目录为: 选择的保存路径\CSDN用户名\img 该用户的头像保存路径 选择的保存路径\CSDN用户名\pdf 生成的PDF文件保存路径 选择的保存路径\CSDN用户名\doc 生成的DOC文件保存路径 选择的保存路径\CSDN用户名\txt 生成的TXT文件保存路径 3、支持获取用户博客信息 4、支持显示用户所有的帖子列表 5、可以自己选择需要下载的帖子,有全选、反选、重置按钮 6、支持下载的文件保存为 pdf、doc、txt三种格式 7、生成的pdf、doc文件支持图片 8、支持进度显示 #################################################### 制作时间:2012年07月17日 - 2012年07月18日 制 作:w397090770 个人博客:http://blog.csdn.net/w397090770 Email :wyphao.2007@163.com 版权所有,翻版不究 ####################################################
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值