学习笔记 jeecms
PHPCOO
这个作者很懒,什么都没留下…
展开
-
jeecms 采集功能优化,基于htmlparser实现
说明:此次优化基于htmlparser,根据标签名称或者标签属性及属性值 过滤内容,只需要设置,内容地址集及内容参数即可采集,准确率高。 用法:在“开始HTML”处(没有修改模板,其实现在应该叫“内容区域参数”)写上你要采集的标签名称/标签属性及属性值,如 id=artibody 在“结束HTML”处(没有修改模板,其实现在应该叫“内容区域过滤参数”)写上...2011-11-03 21:29:55 · 189 阅读 · 0 评论 -
jeecms 采集功能优化,基于htmlparser实现,多线程版
为了熟悉一下多线程相关知识,把jeecms采集器类,改成了多线程版,还不是很完善,帖出来大家一起完善,改进。说明:暂不支持暂停,停止功能。用法:和我上一篇jeecms 采集功能优化,基于htmlparser实现里面的用法一样。思路:想法很简单,在主线程处理类中,先取得当前采集任务下所有URL,并放入队列中,然后开启指定数目的线程(默认是2)采集内容代码清单:采集器主类:...2011-11-03 21:32:17 · 233 阅读 · 0 评论 -
jeecms 爬虫 1.3 正式版 (附带整合 jeecms2012工程源码)
jeecms 爬虫 1.3 正式版 (附带整合 jeecms2012工程源码)这次把爬虫和定时任务框架提炼了出来,新增了分页内容采集参数设置,同时修改了2012分页BUG,添加了 专题选择,内容直接可进入选择的专题,根据是否有图片 判断内容类型:普通/图文.等。。。爬虫内部也做了不少修改。还有些细节的调整就不一一列举了,有兴趣的朋友,下来看看,让我们共同进步。如有什么问题请QQ交流: 1648...2012-03-05 09:24:07 · 225 阅读 · 0 评论