最近要在网上收集一些email地址,在网上找了一下工具,结果比较好的都要¥、$,于是便想自己写一个工具:
我的思路是这样的:
1.要有一个起始入口,可以使一个特定的搜索结果,也可以是一个网站地址;
2.获取网页内容;
3.在网页内容中提取网页的url(用于继续搜索),提取email地址,使用正则表达式实现;
4.建立3个list,分别保持将要访问的url,已访问的url 和提取成功的email 地址;
5.使用多线程提高效率;
代码如下:
源代码: