Algorithm
shyaideguo
这个作者很懒,什么都没留下…
展开
-
布隆过滤器 (Bloom Filter) 详解
布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出,它是一种space efficient的概率型数据结构,用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被 用到。哈希表也能用于判断元素是否在集合中,但是布隆过滤器只需要哈希表的1/8或1/4的空间复杂度就能完成同样的问题。布隆过滤器可以插入转载 2014-11-12 10:33:25 · 446 阅读 · 0 评论 -
海量数据处理:十道面试题与十个海量数据处理方法总结
第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率转载 2014-11-12 10:36:15 · 297 阅读 · 0 评论 -
教你如何迅速秒杀掉:99%的海量数据处理面试题
前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。 毕竟受文章和理论之限,本文将摒弃绝大部分的细节,只谈方法/模式论,且注重用最通俗最直白的语言阐述相关问转载 2014-11-12 10:37:24 · 400 阅读 · 0 评论 -
搜索引擎网页去重算法分析
相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的!搜索爬虫抓取会产生网页重复的类型:1.多个URL地址指向同一网页以及镜像站点如:www.sina转载 2014-11-12 11:05:08 · 605 阅读 · 0 评论 -
Java开平方根代码——牛顿迭代法
package project.test;import java.math.*;public class SqrtTest {private static final String num = "10";private static final int accuracy = 5;private static double accuracyDouble = 0.1原创 2014-10-29 15:21:51 · 3856 阅读 · 0 评论 -
了解CMS(Concurrent Mark-Sweep)垃圾回收器
感谢原作者,版权为原作者所有!原文地址:http://www.iteye.com/topic/1119491转载 2014-10-31 15:25:02 · 373 阅读 · 0 评论 -
基于角色的访问控制权限设计
RBAC(Role-Based Access Control,基于角色的访问控制),就是用户通过角色与权限进行关联。简单地说,一个用户拥有若干角色,每一个角色拥有若干权限。这样,就构造成“用户-角色-权限”的授权模型。在这种模型中,用户与角色之间,角色与权限之间,一般者是多对多的关系。(如下图)角色是什么?可以理解为一定数量的权限的集合,权限的载体。例如:一个论坛系统,“超级管理员转载 2014-10-21 15:46:21 · 513 阅读 · 0 评论