模式识别
文章平均质量分 88
普通网友
这个作者很懒,什么都没留下…
展开
-
文本局部敏感哈希-SimHash算法原理
最近在思考大量文本判重的问题,由于文本数据量大,加之文本判重算法,如BF、KMP、最长公共子串、后缀数组、字典树、DFA等计算时空复杂度并不适合数据量较大的工业应用场景。查找了相关资料,发现LSH(local sencetive ),即局部敏感哈希算法,可以应用本场景。LSH是指面对海量高维数据时,一般的算法无法快速降维查询相似度高的数据子集,利用特定的hash算法,将高维数据映射到低维空间,以较高概率快速寻找相似度高的数据子集。由于这方面积累极少,自己写出的文章比较肤浅,所以直接整理粘贴大牛文章,在此表示转载 2016-09-18 22:10:03 · 4274 阅读 · 1 评论 -
文本局部敏感哈希-MinHash算法原理
一、MinHash举例下面原文转自大牛博客:聚类之MinHash MinHash是基于Jaccard相似度的算法,一种降维的方法X,Y两个集合:X= {s1, s3, s6, s8, s9} ,Y= {s3, s4, s7, s8, s10}MinHash的基本原理:在X∪Y这个大的随机域里,选中的元素落在A∩B这个区域的概率,这个概率就等于Jaccard的相似转载 2016-09-18 23:03:06 · 6076 阅读 · 0 评论 -
中文文本分类-朴素贝叶斯
贝叶斯分类器是基于先验概率与条件概率进行概率计算的分类器。X是特征属性,Y是分类属性,P(Y|{x0,x1....xn})是X在取值{x0,x1,...xn}的条件下Y发生的概率,成为P(Y)的后验概率,P(Y)的先验概率。实际在计算P(Y|{x0,x1....xn})的时候由于维度太高,至少需要考虑特征属性与分类属性的所有搭配情况,计算量大而且无法对待分类数据集进行全面覆盖。原创 2016-09-16 11:07:03 · 7901 阅读 · 8 评论 -
面向地学数据的数据挖掘研究与实现
数据挖掘又称知识发现,是指从海量数据中发掘知识,有着广阔的应用前景。然而,当面对地学数据时,即使是现有的相对成熟的模型,也存在着性能与效果方面的缺陷。究其原因,主要是因为地学数据的固有特点:高维、非结构化、多关联性等,在数据模型、索引结构、存储方式、挖掘知识表达等方面,远比传统数据复杂。通常意义的地学数据有栅格、矢量等,本文注重处理栅格数据。Tobler地理学第一定理告诉我们:一切事物都与其他事物相关,但是距离近的比远的相关性更强。本文针对地学数据的空间相关性特点,通过R树建立空间索引,以空间同位模式挖掘原创 2015-12-19 01:23:28 · 4584 阅读 · 0 评论 -
模式识别ID3算法实现
一、决策树ID3算法描述 决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树算法中最简单、最经典的就是ID3算法了。下面我从程序员的角度谈谈我对决策树算法的基本理解。在进行节点分裂的过程中,按照一定的贪心策略自顶向下的递归建树原创 2014-04-25 22:01:15 · 3175 阅读 · 7 评论 -
Apriori算法原理及实现
有这样一个故事:美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布,而丈夫在买完尿布后又要顺 手买回自己爱喝的啤酒,因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的销量双双增加,并一直为众商家所津津乐道。"尿布和啤酒":关联规则的一个非常有名的故事。关联规则的是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析。原创 2014-12-07 19:56:39 · 7319 阅读 · 2 评论 -
马尔科夫原理及应用场景
一、马尔科夫模型 马尔可夫模型,是指数学中具有马尔可夫性质的离散事件随机过程。该过程中,在给定当前知识或信息的情况下,过去(即当前以前的历史状态)对于预测将来(即当前以后的未来状态)是无关的。 《百度百科》 马尔可夫模型是随机变量X1,…Xn-1,Xn的序列,这些变量的范围所有可能取值集合,被称为状态空间,而Xn的值x则是在时间n的状态。用数学表达式的近似形式就是:P(Xn=x|Xn原创 2016-09-27 22:48:53 · 6079 阅读 · 0 评论