原理:
1.给一个URL,爬虫爬取这个url;
2.url中提取HTML中a 标签内容获取新的url;
3.再通过新的url再循环以上;
实现代码:
import java.io.*;
import java.net.*;
public class Dome1 {
public static void main(String[] args){
String s1="<a href=\"http://";
String url="http://www.dangdang.com";
String [] urlconntion=new String[50];
Crawler cr=new Crawler(url,s1,urlconntion);
int i=0;
String s2=cr.find();
//相当于DFS算法,如果爬取到最深的url,已无新的url时,则返回最开始的url开始循环;
while(urlconntion[30]==null){
if(s2==null){
cr