借鉴StanZhai核心代码,写了个博客园多线程离线采集器
借鉴StanZhai核心代码,写了个博客园采集器,实现了文章正文和页面图片本地化,可以当成离线阅读器使用。收录的文章,概要信息写入sqlite数据库,可实现标题、正文的检索,功能比较简单,自己用应该挺方便的。自认为知识点有几个:1、提取正文一般来说,提取正文用正则要好一点,但是如果文章模板不同,那么写正则的工作量就太大了,并且也不好针对每个网页写正则。所幸,有高人早
原创
2014-08-29 10:53:04 ·
698 阅读 ·
0 评论