- 博客(2)
- 资源 (7)
- 问答 (2)
- 收藏
- 关注
原创 URL去重:布隆过滤器的简单实现
[code="java"]/** * 如何不采集重复的网页?去重可以使用布隆过滤器,每个线程使用一个bitarray, * 里面保存本批源页面上次抓取的页面的哈希值情况,抓取下来的源页面分析链接后, * 去这个bitarray里判断以前有没有抓过这个页面,没有的话就抓下来,抓过的话就不管了。 * 假设一个源页面有30个链接,一批10W个源页面,300w个链接的bitarray应该也...
2011-02-28 17:23:52 369
原创 Spring内置Quartz任务调度类xml文件配置实例
简而言之3点:1,一个job对应一个处理类(bean),如makeXML4Chart。同时指明调用方法,如execute。2,一个trigger对应一个job,如makeXMLJob和cronTrigger。3,最后由triger的管理器类(SchedulerFactoryBean)集中所有trigger以供调度。[code="java"] ...
2011-02-24 15:55:41 109
使用javamail,commons-mail发送邮件实例
2011-03-20
SWT图形界面开发工具包
2010-03-19
java和javascript字符编码的问题
2010-05-29
用java字符串方法去除HTML代码标签的问题
2010-05-12
TA创建的收藏夹 TA关注的收藏夹
TA关注的人