公司里要写一个抓图的程序
其实和搜索引擎差不多的原理 下载分析网页遇到<a>标签继续模拟点击进去再分析该网页 遇到<img>就下载该图
难点:
1 URL去重 采用bloomfilter算法
2 序列化方式存储URL库
3 线程的合理切换
难度不大 大家看代码吧 没图形界面的 完全控制台 跨平台 呵呵
序列化工具类:
BloomFilter去重算法类
核心类
公司里要写一个抓图的程序
其实和搜索引擎差不多的原理 下载分析网页遇到<a>标签继续模拟点击进去再分析该网页 遇到<img>就下载该图
难点:
1 URL去重 采用bloomfilter算法
2 序列化方式存储URL库
3 线程的合理切换
难度不大 大家看代码吧 没图形界面的 完全控制台 跨平台 呵呵
序列化工具类:
BloomFilter去重算法类
核心类