京东Robots协议
#'*'代表所有,“/"代表根目录。
User-agent: * #对于任意网络爬虫,应遵循如下协议
Disallow: /?* #任何爬虫不允许访问以“?”开头的路径
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User-agent: EtaoSpider #这四个被认为是恶意爬虫,全部被禁
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /
[abc]表示a或b或c中的一个。
match.group([group1, ...])
返回 match 的一个或多个子组。
如果只有唯的一参数,返回单一的子符串;如果有多个参数,结果是对应每一个参数的元素组成的 tuple 。
如果没有参数, group1 的默认值为 0 (返回整个匹配的字符串)。
如果一个 groupN 参数的值为 0 ,对应的返回值为整个匹配的字符串;如果参数值在 1 到 99 之间(含),返回对应的括号组匹配的字符串。