织梦采集侠采集问题

            用织梦的后台开发个好几个项目,最近又了解了一下织梦的采集侠,觉得简单易上手,在这里简单的总结一下采集过程和所遇到的问题,希望对大家能够有所帮助。

    一:采集侠下载安装

         可以选择在官网直接下载:https://www.caijixia.net/,安装步骤什么的在官网上都可以找到,安装之后可以在后台管理系统中看到多了采集这一板块内容,接下里就可以对目标网站进行采集。

 

      二:采集规则:

         1.点击采集管理添加新节点,新节点可以为自己的栏目名字,然后进入规则编辑页面,记住要选择目标网站的编码方式,打开目标网站页面查看源码查找charset看对应的编码,然后选中对应的原点,引用网址直接填写自己所要采集的目标网站的对应网址。

          2.由于很多新闻列表分页都是有规律的,这里可以用批量生成或手工生成,比如我们采集CSDN知识库全部动态这一块内容,匹配网址为http://lib.csdn.net/?page=(*)#md,如果手工生成的话就是http://lib.csdn.net/?page=1#md;http://lib.csdn.net/?page=2#md……这样输入自己所要采集的网址列表。接下来就是要采集文章网址,列表开始的地方和结束的地方对应目标网站源码的对应区域,以刚刚提到的网址为例,可看到文章列表用写在ul标签里,然后找到开头和结尾的地方把标签写入,再点击内容配置进行进一步配置。



       3.预览网址就写入自己所要测试的文章内容网址,内容分页导航的匹配规则查看目标网站的源码查找首页,上一页下一页这样的字眼找到他们的类名或标签,正文,作者和源码内容的调用也是这样,调用正文的时候我们一般要过滤掉div,以免对我们自己的样式造成影响,我们直接上图,






点击保存测试就可以看出我们的列表和文章内容所需要的内容都调用出来了,这时候就可以点击确定并开始采集了,查看下载内容是否正确,最后再导入数据到自己所想要发布的栏目中,所有的采集步骤就结束了。


        

   




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值