[dede应用]采集过滤

原创 2007年10月10日 15:16:00
dede采集过程中最麻烦的莫过于采集的正则过滤函数的编写。说实在的,dede在这点上和很多ASP CMS系统比如说动易等,采集的时候直接选择几个选项就可以了,简单的完成想过滤的东西。不过他们只局限于对文章内容的过滤不是很好。而DEDE却能对所有采集的字段进行过滤,功能上弥补了易用性的缺陷,期待柏拉图在后续版本中加上选择性过滤功能。
下面是在综合论坛上网友的各种正则的一个全集:

{dede:trim}
{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<img([^>]*)>{/dede:trim}
{dede:trim}<span([^>]*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
{dede:trim} {/dede:trim}
{dede:trim}<stong>{/dede:trim}
{dede:trim}</stong>{/dede:trim}


应用示例一:标题中空格的过滤
经常在采集文章的时候,标题文字里面有空格,采回来后应用很是麻烦,所以需要在过滤处添加下面正则过滤

{dede:trim} {/dede:trim}


应用示例二:来源作者中连接的过滤
在采集文章的时候,有的系统里面作者或者来源处都有连接,直接采集的话将连接采集回来了,然后由于这两个字段有限制,通常会造成需要采集的内容没有采集回来,所以需要在过滤处添加下面正则过滤

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}


应用示例三:文章内容中连接以及其他广告代码的过滤
这个就不用说了,当需要对所有东西过滤的时候,直接用上面所有的代码过滤就可以,但是实际应用中,我们只需要对连接、动画、调用等进行过滤。(这个需要按照对方内容里面具体含有什么代码来具体操作)
一般的只有链接,使用二中的代码进行过滤就可以了,但是实际上一般的网站现在都在内容里面加有广告等,所以采取下面的过滤正则就可以完成过滤

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}


应用示例四:过滤GG广告代码
其实这个就是在上面的内容过滤,但是很多论坛里的网友经常问这个,所以单独作为一个应用列出来:

{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}


好了,上面四种应用基本上涵盖了采集的各种应用,掌握了这个,过滤基本上就不用求人了!
 

dede自动采集 自动伪原创 自动发布一体化插件

dede自动采集 自动伪原创 自动发布一体化插件 dedecms标签 dede蓝财采集插件更新至第三代 先说下升级的功能: 结合了第一代全自动采集插件。。第二代全自动采...
  • wyncxge
  • wyncxge
  • 2015年01月21日 13:04
  • 1072

Dedecms 火车采集器免登陆发布接口,自动生成上下篇、栏目页、首页

火车采集器发布至DEDECMS文章的免登陆接口
  • sbdx
  • sbdx
  • 2015年07月24日 17:16
  • 2726

STM32 ADC结合DMA数据采样与软件滤波处理

本文原创于观海听涛,原作者版权所有,转载请注明出处。 作为一个偏向工控的芯片,ADC采样是一个十分重要的外设。STM32集成三个12位精度18通道的内部ADC,最高速度1微秒,结合DMA可以解放CP...
  • i792439187
  • i792439187
  • 2013年04月19日 17:44
  • 14995

dede织梦_采集规则技巧-过滤-替换

接口 @me=str_replace('被替换字','替换字',@me); 官方自带 {dede:trim replace=''}]*)>(.*){/dede:trim} {dede:tr...
  • snihcel
  • snihcel
  • 2013年05月21日 01:15
  • 904

DEDE高级应用 小助手扩展教程 helper

稍有经验的就知道DEDE标签调用函数的方法   {dede:arclist}      [field:pubdate  function=MyDate('Y-m-d',@me)" /] {/d...
  • qikexun
  • qikexun
  • 2016年01月31日 21:17
  • 246

dede中的php应用

dede中的php应用
  • anbs01
  • anbs01
  • 2011年03月10日 17:46
  • 858

Dede自动采集伪原创发布更新一体化插件

Dede自动采集伪原创发布更新一体化插件 此插件是本人从网上找到的,插件原作者已经不可考。 (声明:网上较多的是gbk版的,由于本人是utf8版的,代码已经转成utf8,下载前...
  • ccrldwh
  • ccrldwh
  • 2014年10月11日 12:44
  • 652

dede织梦采集教程

登录后台,进入“采集节点管理”,新建一个节点,选择内容模型为“普通文章”。 1.设置节点基本信息     先填写一个方便记忆的节点名称,选择目标页面编码为GB2312,防盗链模式不做设置,因目标站...
  • cloudday
  • cloudday
  • 2011年10月31日 22:33
  • 2399

某大型笑话网站源码,DEDE内核+1w条数据+36条采集规则

  • 2013年02月21日 20:01
  • 18.92MB
  • 下载

DEDE 织梦5.7 新闻采集规则

  • 2015年08月30日 20:43
  • 6KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:[dede应用]采集过滤
举报原因:
原因补充:

(最多只允许输入30个字)