爬虫配置文件

<?xml version="1.0" encoding="utf-8"?>
<template>
    <id>××××.com</id>
    <!--行政区域-->
    <page threads="false" dynamic="false" desc="index" setcookie="false" pattern="^http://www.×××××.com/search/category/\d+/\d+(/)?(r\d+)?(p\d+)?$">
        <enqueue>
            <xpath>//ul[@data-key='region']/li/a/@href</xpath>
            <xpath>//ul[@class='detail']/li[1]/a[1]/@href</xpath>
            <xpath>//div[@class='Pages']/a/@href</xpath>
        </enqueue>
    </page>
    <!--商品页-->
    <page threads="false" dynamic="false" desc="non-index" setcookie="false" pattern="^http://www.*****.com/shop/\d+(\?KID=\d+)?$">
        <check>
            <!--这个是无用的-->
            <xpath>//*[@id="pt1:pgl4"]</xpath>
            <pattern>\d+.00</pattern>
        </check>
    </page>
</template>

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值