正则表达式:
1.特殊字符
^开始 $结尾 .任意字符 *对于前面的字符匹配0次或多次 ?匹配0次或1次 \d数字 \D非数字 [a-z]字母
.* 贪婪的匹配任意字符
.*? 非贪婪的匹配任意字符
爬取整个网站的思路,因为网站存在不同层级子域名,查找时需要递归或者队列方式去查找(而且还要注意子域名返回到首上级域名)
爬取思路:深度优先,广度优先
正则表达式:
1.特殊字符
^开始 $结尾 .任意字符 *对于前面的字符匹配0次或多次 ?匹配0次或1次 \d数字 \D非数字 [a-z]字母
.* 贪婪的匹配任意字符
.*? 非贪婪的匹配任意字符
爬取整个网站的思路,因为网站存在不同层级子域名,查找时需要递归或者队列方式去查找(而且还要注意子域名返回到首上级域名)
爬取思路:深度优先,广度优先