算法
Thinking_boy1992
这个作者很懒,什么都没留下…
展开
-
Bloom filter
原文链接:blog.csdn.net/jiaomeng/article/details/1495500 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)转载 2017-04-18 11:04:58 · 350 阅读 · 0 评论 -
分类算法评价
一、引言 分类算法有很多,不同分类算法又有很多不同的变种。不同的分类算法有不同的特征,在不同的数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选择分类,如何评价一个分类算法的好坏,前面关于决策树的介绍,我们主要用的正确率(accuracy)来评价分类算法。 正确率确实是一个很好很直观的评价指标,但是有时候正确率高并不能代表一个算法就好。比如对某个地区某天地震的转载 2017-04-26 21:33:56 · 1609 阅读 · 1 评论 -
排序算法
相关链接 快速排序: 快速排序是不稳定的,其时间平均时间复杂度是O(nlgn)。 快速排序的思想来自冒泡排序,冒泡排序是通过相邻元素的比较和交换把最小的冒泡到最顶端,而快速排序是比较和交换小数和大数,这样一来不仅把小数冒泡到上面同时也把大数沉到下面。思路是右指针找比基准数小的,左指针找比基准数大的,交换之; 栗子:对 5,3,8,6,4 进行快速排序;原创 2017-04-08 17:25:56 · 551 阅读 · 0 评论 -
k-means算法及文本聚类实践
http://www.cnblogs.com/fengfenggirl/p/k-means.html K-Means是常用的聚类算法,与其他聚类算法相比,其时间复杂度低,聚类的效果也还不错,这里简单介绍一下k-means算法,下图是一个手写体数据集聚类的结果。 基本思想 k-means算法需要事先指定簇的个数k,算法开始随机选择k个记录点作为中心点,然后遍历整个数据集的各条记录,将每条转载 2017-04-24 09:27:35 · 914 阅读 · 0 评论 -
关联规则FpGrowth算法
http://www.cnblogs.com/fengfenggirl/p/associate_fpgowth.htmlFpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。转载 2017-04-23 09:15:27 · 892 阅读 · 0 评论 -
关联规则FpGrowth算法
http://www.cnblogs.com/fengfenggirl/p/associate_fpgowth.htmlFpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。转载 2017-04-22 11:16:38 · 892 阅读 · 0 评论 -
马尔科夫链
马尔科夫链,是数学中具有马尔科夫性质的离散事件随机过程。该过程中,在给定当前知识和信息的情况下,过去(即当前以前的历史状态)对于预测将来(即当前以后的未来状态)是无关的; 一、马尔科夫性质-原理简洁 X1,X2,X3…马尔科夫链:描述了一个状态序列,其每个状态值取决于前面有限个状态。马尔科夫链是具有马尔科夫性质的随机变量的一个数列。这些变量的变化范围,即它们所有可能取值的集合,被称为“状态空间”原创 2017-04-22 10:13:28 · 1356 阅读 · 0 评论 -
Boyer Moore算法分析总结
是一种字符串的搜索算法 思路分析 假设目标串长度为n, 模式串长度为m。那么,首先我们就从两个串的m - 1索引位置开始比较,如果相同,则一直向前,如果不同,则需要根据这个不同的字符的情况来判断。 根据比较字符的不同,我们可能有两种情况,一种是这个不同的字符不在模式串里。那么很显然,模式串里任何一个字符都不可能和它匹配的,我们只需要跳到这个字符的后面那个位置开始继续比较就可以了转载 2017-05-02 22:55:38 · 812 阅读 · 0 评论 -
关联规则挖掘基本概念与Aprior算法
基本概念: 总项集:数据记录的所有项的集合,上表中的总项集 S={牛奶,面包,尿布,啤酒,鸡蛋,可乐}。 关联规则:两个不相交的非空集合X、Y,如果有X–>Y,就说X–>Y是一条关联规则。举个例子,在上面的表中,我们发现购买啤酒就一定会购买尿布,{啤酒}–>{尿布}就是一条关联规则。关联规则的强度用支持度(support)和自信度(confidence)来描述, **相对支持度:**supp转载 2017-04-22 11:03:12 · 658 阅读 · 0 评论 -
分类算法评价
一、引言 分类算法有很多,不同分类算法又有很多不同的变种。不同的分类算法有不同的特征,在不同的数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选择分类,如何评价一个分类算法的好坏,前面关于决策树的介绍,我们主要用的正确率(accuracy)来评价分类算法。 正确率确实是一个很好很直观的评价指标,但是有时候正确率高并不能代表一个算法就好。比如对某个地区某天地震的转载 2017-05-02 09:01:47 · 843 阅读 · 0 评论 -
PageRank
PageRank对网页排名的算法,曾是Google发家致富的法宝; 一、什么是pagerank PageRank 中的Page可认为是网页,表示网页排名,也可以认为是Larry Page(google 产品经理),因为他是这个算法的发明者之一,还是google CEO(^_^)。PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。转载 2017-04-27 15:47:21 · 434 阅读 · 0 评论