第一节:Java Executor框架特性
Java Executor框架是Jdk1.5之后推出的,是为了更加方便的开发多线程应用而封装的框架;
相比传统的Thread类,Java Executor使用方便,性能更好,更易于管理,而且支持线程池,所以我们在开发爬虫的时候,为了提高爬虫的爬取效率,我们要使用多线程,推荐使用Java的Executor框架来实现,因为Executor框架 既简单又高效;
第二节:Java Executor框架在爬虫应用中的使用
常用接口:
创建固定数目线程的线程池。
public static ExecutorService newFixedThreadPool(int nThreads)
执行一个线程
void java.util.concurrent.Executor.execute(Runnable command)
查看活动线程个数
int java.util.concurrent.ThreadPoolExecutor.getActiveCount()
结束所有线程
void java.util.concurrent.ExecutorService.shutdown()
说明:Executor在管理多个线程的时候,会进行有效的安排处理,比如创建的时候,线程池是10个,假如实际线程超过10个,Executor会进行有效的队列阻塞和调度。对我们开发者这是透明的,完全不用关心它内部的具体执行;
下面给个比较实用的测试代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
|
package
com.open1111;
import
java.util.concurrent.ExecutorService;
import
java.util.concurrent.Executors;
import
java.util.concurrent.ThreadPoolExecutor;
public
class
ExecutorTest {
private
static
Integer pages=
1
;
// 网页数
private
static
boolean
exeFlag=
true
;
// 执行标识
public
static
void
main(String[] args) {
ExecutorService executorService=Executors.newFixedThreadPool(
10
);
// 创建ExecutorService 连接池创建固定的10个初始线程
while
(exeFlag){
if
(pages<=
100
){
executorService.execute(
new
Runnable(){
@Override
public
void
run() {
// TODO Auto-generated method stub
System.out.println(
"爬取了第"
+pages+
"网页..."
);
pages++;
}
});
}
else
{
if
(((ThreadPoolExecutor)executorService).getActiveCount()==
0
){
// 活动线程是0
executorService.shutdown();
// 结束所有线程
exeFlag=
false
;
System.out.println(
"爬虫任务已经完成"
);
}
}
try
{
Thread.sleep(
100
);
// 线程休息0.1秒
}
catch
(InterruptedException e) {
e.printStackTrace();
}
}
}
}
|
运行结果:
爬取了第1网页...
爬取了第2网页...
爬取了第3网页...
爬取了第4网页...
爬取了第5网页...
爬取了第6网页...
爬取了第7网页...
爬取了第8网页...
爬取了第9网页...
爬取了第10网页...
爬取了第11网页...
爬取了第12网页...
爬取了第13网页...
爬取了第14网页...
爬取了第15网页...
爬取了第16网页...
爬取了第17网页...
爬取了第18网页...
爬取了第19网页...
爬取了第20网页...
爬取了第21网页...
爬取了第22网页...
爬取了第23网页...
爬取了第24网页...
爬取了第25网页...
爬取了第26网页...
爬取了第27网页...
爬取了第28网页...
爬取了第29网页...
爬取了第30网页...
爬取了第31网页...
爬取了第32网页...
爬取了第33网页...
爬取了第34网页...
爬取了第35网页...
爬取了第36网页...
爬取了第37网页...
爬取了第38网页...
爬取了第39网页...
爬取了第40网页...
爬取了第41网页...
爬取了第42网页...
爬取了第43网页...
爬取了第44网页...
爬取了第45网页...
爬取了第46网页...
爬取了第47网页...
爬取了第48网页...
爬取了第49网页...
爬取了第50网页...
爬取了第51网页...
爬取了第52网页...
爬取了第53网页...
爬取了第54网页...
爬取了第55网页...
爬取了第56网页...
爬取了第57网页...
爬取了第58网页...
爬取了第59网页...
爬取了第60网页...
爬取了第61网页...
爬取了第62网页...
爬取了第63网页...
爬取了第64网页...
爬取了第65网页...
爬取了第66网页...
爬取了第67网页...
爬取了第68网页...
爬取了第69网页...
爬取了第70网页...
爬取了第71网页...
爬取了第72网页...
爬取了第73网页...
爬取了第74网页...
爬取了第75网页...
爬取了第76网页...
爬取了第77网页...
爬取了第78网页...
爬取了第79网页...
爬取了第80网页...
爬取了第81网页...
爬取了第82网页...
爬取了第83网页...
爬取了第84网页...
爬取了第85网页...
爬取了第86网页...
爬取了第87网页...
爬取了第88网页...
爬取了第89网页...
爬取了第90网页...
爬取了第91网页...
爬取了第92网页...
爬取了第93网页...
爬取了第94网页...
爬取了第95网页...
爬取了第96网页...
爬取了第97网页...
爬取了第98网页...
爬取了第99网页...
爬取了第100网页...
爬虫任务已经完成