采集

<?xml version="1.0" encoding="utf-8"?>
<gathers>
  <gather>
    <!--&lt; < 小于号 &gt; > 大于号 &amp; & 和 &apos; " 单引号 &quot; " 双引号-->
    <gathertime>2012-7-28 12:09:09</gathertime>
    <!--1 按采集时间,2按采集页列表+时间,3 只按采集列表-->
    <gathertype>2</gathertype>
    <!--1 顺序,2倒序-->
    <gatherordery>1</gatherordery>
    <pagestart>1</pagestart>
    <pageend>3</pageend>
    <clickA>3000</clickA>
    <clickB>20000</clickB>
    <!--列表页-->
    <listA><![CDATA[>笑话列表</td>]]></listA>
    <listB><![CDATA[<span class="main_title">
]]></listB>
    <mlinkRex><![CDATA[<a href="([^>]*)" class="main_14" target="_blank" >([^>]*)</a>]]></mlinkRex>
    <mnameRex><![CDATA[散文,美文]]></mnameRex>
    <mdateRex><![CDATA[\d{4}(-)\d{1,2}(-)\d{1,2}]]></mdateRex>
    <listremovecode><![CDATA[<td([^>]*)>~<td>~</td>~<tr>~<tr([^>]*)>~</tr>~\r~\n~\t~<script([^>]*)>~</script>~&nbsp;~<img([^>]*)>]]></listremovecode>
    <!--详细页-->
    <nameRex><![CDATA[<h2>]]></nameRex>
    <nameRexB><![CDATA[</h2>]]></nameRexB>
    <!--1 采集url,2 图片下载到本地-->
    <picmode>1</picmode>
    <picRex></picRex>
    <stateRex></stateRex>
    <stateRexB><![CDATA[]]></stateRexB>
    <yearRex><![CDATA[qingganmeiwen,yc,xinxiu,shanggan,sanwen,suibi,ganrenwenzhang,renshengzheli]]></yearRex>
    <yearRexB><![CDATA[]]></yearRexB>
    <updatetimeRex></updatetimeRex>
    <updatetimeRexB></updatetimeRexB>
    <langRex><![CDATA[]]></langRex>
    <langRexB><![CDATA[]]></langRexB>
    <areaRex></areaRex>
    <areaRexB></areaRexB>
    <movetypeRex><![CDATA[查看此类型的所有笑话">]]></movetypeRex>
    <movetypeRexB><![CDATA[ </a>]]></movetypeRexB>
    <actorRex></actorRex>
    <actorRexB></actorRexB>
    <desA><![CDATA[<span id="text110">]]></desA>
    <desB><![CDATA[</span>]]></desB>
    <plistA><![CDATA[]]></plistA>
    <plistB><![CDATA[]]></plistB>
    <playlinkRex></playlinkRex>
    <!--本地type-->
    <playlinksplit><![CDATA[16,16,16,16,16,16,16,16]]></playlinksplit>
    <!--采集type-->
    <playlinksplitRex><![CDATA[12,1,4,8,18,15,20,23]]></playlinksplitRex>
    <itemname>lookmw</itemname>
    <charset>gb2312</charset>
    <playfrom>lookmw</playfrom>
    <playType>1</playType>
    <url>http://www.jokeji.cn</url>
    <playurl></playurl>
    <pageurl>http://www.jokeji.cn/keyword.asp?MaxPerPage=22&listtype=title&cid=0&me_page={0}</pageurl>
    <removecode><![CDATA[<td([^>]*)>~<td>~</td>~<tr>~<tr([^>]*)>~</tr>~\r~\n~\t~<script([^>]*)>~</script>~~<div([^>]*)>~</div>~<table([^>]*)>~</table>~<img([^>]*)>~&nbsp;~<iframe([^>]*)>~</iframe>~class="user_14"]] ></removecode>
    <!--语言-->
    <nextpageplay>1</nextpageplay>
    <linktype>1</linktype>
    <linkremovecode></linkremovecode>
  </gather>
</gathers>

转载于:https://www.cnblogs.com/jiebian/archive/2012/08/04/2623086.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值