织梦采集侠采集问题

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wbx_wlg/article/details/52872596

            用织梦的后台开发个好几个项目,最近又了解了一下织梦的采集侠,觉得简单易上手,在这里简单的总结一下采集过程和所遇到的问题,希望对大家能够有所帮助。

    一:采集侠下载安装

         可以选择在官网直接下载:https://www.caijixia.net/,安装步骤什么的在官网上都可以找到,安装之后可以在后台管理系统中看到多了采集这一板块内容,接下里就可以对目标网站进行采集。

 

      二:采集规则:

         1.点击采集管理添加新节点,新节点可以为自己的栏目名字,然后进入规则编辑页面,记住要选择目标网站的编码方式,打开目标网站页面查看源码查找charset看对应的编码,然后选中对应的原点,引用网址直接填写自己所要采集的目标网站的对应网址。

          2.由于很多新闻列表分页都是有规律的,这里可以用批量生成或手工生成,比如我们采集CSDN知识库全部动态这一块内容,匹配网址为http://lib.csdn.net/?page=(*)#md,如果手工生成的话就是http://lib.csdn.net/?page=1#md;http://lib.csdn.net/?page=2#md……这样输入自己所要采集的网址列表。接下来就是要采集文章网址,列表开始的地方和结束的地方对应目标网站源码的对应区域,以刚刚提到的网址为例,可看到文章列表用写在ul标签里,然后找到开头和结尾的地方把标签写入,再点击内容配置进行进一步配置。



       3.预览网址就写入自己所要测试的文章内容网址,内容分页导航的匹配规则查看目标网站的源码查找首页,上一页下一页这样的字眼找到他们的类名或标签,正文,作者和源码内容的调用也是这样,调用正文的时候我们一般要过滤掉div,以免对我们自己的样式造成影响,我们直接上图,






点击保存测试就可以看出我们的列表和文章内容所需要的内容都调用出来了,这时候就可以点击确定并开始采集了,查看下载内容是否正确,最后再导入数据到自己所想要发布的栏目中,所有的采集步骤就结束了。


        

   




阅读更多

没有更多推荐了,返回首页