用JAVA实现简单爬虫循环抓取

最新推荐文章于 2024-01-02 17:43:44 发布

庄ZY颜

最新推荐文章于 2024-01-02 17:43:44 发布

阅读量990

点赞数

分类专栏：技术文章标签：代码 java 爬虫

本文链接：https://blog.csdn.net/qq_24486393/article/details/46876093

版权

原理：
1.给一个URL，爬虫爬取这个url；
2.url中提取HTML中a 标签内容获取新的url；
3.再通过新的url再循环以上；

实现代码：

import java.io.*;
import java.net.*;

public class Dome1 {

    public static void main(String[] args){
    String s1="<a href=\"http://";
    String url="http://www.dangdang.com";
    String [] urlconntion=new String[50];
    Crawler cr=new Crawler(url,s1,urlconntion);
    int i=0;
    String s2=cr.find();
    //相当于DFS算法，如果爬取到最深的url，已无新的url时，则返回最开始的url开始循环；
    while(urlconntion[30]==null){
        if(s2==null){
            cr

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

庄ZY颜

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
用JAVA实现简单爬虫循环抓取

原理： 1.给一个URL，爬虫爬取这个url； 2.url中提取HTML中a 标签内容获取新的url； 3.再通过新的url再循环以上；实现代码：import java.io.*;import java.net.*;public class Dome1 { public static void main(String[] args){ String s1="<a href=\"
复制链接

扫一扫