多线程爬虫爬取豆瓣标签和评论

利用多线程技术开九路爬虫对数据进行爬取

package com;
/**
 * 孙煜晗爬虫九倍速魔改版
 * sunYuhan
 */
import java.io.*;
import java.net.*;
import java.util.*;
import java.util.regex.*;

public class exe2{
	static exe e1;
	public static void main(String[] args)
	{
		exe e=new exe();
		e.firstGo();
		exeThread e1=new exeThread(e);
		exeThread e2=new exeThread(e);
		exeThread e3=new exeThread(e);
		exeThread e4=new exeThread(e);
		exeThread e5=new exeThread(e);
		exeThread e6=new exeThread(e);
		exeThread e7=new exeThread(e);
		exeThread e8=new exeThread(e);
		exeThread e9=new exeThread(e);
		e1.start();
		e2.start();
		e3.start();
		e4.start();
		e5.start();
		e6.start();
		e7.start();
		e8.start();
		e9.start();
	}
}
class exe {
    //提取的数据存放到该目录下
	//为html转化为的TXT文件
    private static String savepath="C:/Users/54781/Desktop/爬虫文件2/";
    //等待爬取的url
    private static List<String> allwaiturl=new ArrayList<>();
    //记录爬取过的url
    private static Set<String> alloverurl=new HashSet<>();
    //记录所有url的深度进行爬取判断
    private static Map<String,Integer> allurldepth=new HashMap<>();
    //爬取的深度
    private static int maxdepth=10;
    public void firstGo()
    {

        String strurl="https://book.douban.com";
        
        workurl(strurl,1);
    }
    public boolean go()
    {
    	while(true)
        
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值