算法
想养一只雪狐
心有猛虎,细嗅蔷薇
展开
-
一致性hash算法
场景:比如你有 N 个服务器(后面简称 cache ),那么如何将一个对象 object 映射到 N 个服务器上呢,你很可能会采用类似下面的通用方法计算 object 的 hash 值,然后均匀的映射到到 N 个服务器 ;hash(object)%N(这里%是取余的意思)一切都运行正常,然后我们再考虑如下的两种情况;1、一个服务器(s), down 掉了(在实际应用中必须要考虑这种情况),这样...原创 2018-11-21 21:44:19 · 150 阅读 · 0 评论 -
simhash算法
作用:专门用来解决亿万级别的网页的去重任务。主要分为5步:分词:对文章进行分词,得到有效的特征向量,为每个特征向量设一个1-5的权重(如果是给定一个文本,那么特征向量可以是文本中的词,其权重类似这个词的tf-idf值)Hash:利用hash函数计算每个特征向量的hash值,hash值的类型是二进制数0和1组成的n-bit签名。加权:给所有特征向量的hash值进行加权,且遇到1则hash值和...原创 2018-11-21 20:59:09 · 238 阅读 · 0 评论 -
lintcode K数和
题目给定n个不同的正整数,整数k(k < = n)以及一个目标数字。 在这n个数里面找出K个数,使得这K个数的和等于目标数字,求问有多少种方案?样例给出[1,2,3,4],k=2, target=5,[1,4] and [2,3]是2个符合要求的方案答案public class Solution { /** * @param A: An inte...原创 2018-04-10 20:10:51 · 1663 阅读 · 0 评论 -
lintcode落单的数|||
题目:给出2*n + 2个的数字,除其中两个数字之外其他每个数字均出现两次,找到这两个数字。样例:给出 [1,2,2,3,4,4,5,3],返回 1和5 答案:public class Solution { /* * @param A: An integer array * @return: An integer array */ ...原创 2018-04-10 20:05:04 · 1606 阅读 · 0 评论 -
朴素贝叶斯分类MATLAB实现
原理:首先将数据分成训练集和测试集,计算测试集中每个类的先验概率(就是每个类在训练集中占的比例),然后为样本的每个属性估计条件概率(就是属性值相同的样本在每一类中占的比例)为了方便理解请看下面的例子:(直接用的周志华机器学习那本书上的数据) 现在有一个西瓜,它的属性值如下,让判断它是好瓜还是坏瓜 首先我们要求每个类的先验概率,就是好瓜和坏瓜的比例 P(好瓜) = 8/17 = 0...原创 2018-03-20 20:56:07 · 35163 阅读 · 51 评论