数据挖掘算法
文章平均质量分 85
lytangus
这个作者很懒,什么都没留下…
展开
-
Apriori算法解析
本文主要对Apriori算法进行解析,参考书籍《Introduction to Data Mining》摘要: 本算法主要应用于关联分析问题(啤酒与尿布)。它使用基于支持度的剪枝技术,系统的控制候选集指数增长。 关联规则是形如X->Y的蕴涵表达式,其中X和Y是不相交的项集,即X∩Y=∅。 支持度(s):s(x->y)=count(X∪Y)/N...原创 2018-05-12 15:50:55 · 5524 阅读 · 0 评论 -
简述PageRank
本文主要内容有词项作弊、PageRank原理以及如何解决复杂Web结构带来的问题。 词项作弊 这里要说一点历史,早起的搜索引擎(谷歌出现之前)大部分都是利用网络爬虫(第一次知道爬虫有这么久的历史)从Web上抓取数据,然后通过倒排索引的方式列出每个页面所包含的词项。倒排索引是一种很容易从给定词项找到它所在的所有网页的数据结构,简单理解就是我们一般都是从key出发去查找Value,这里在添加了...原创 2018-05-30 18:15:38 · 2113 阅读 · 0 评论 -
高维聚类
维数灾难的表现 在高维空间下,几乎所有的点对之间的距离都差不多相等 考虑一个d维欧式空间,假设在一个单位立方体内随机选择n个点。首先,如果d为1,那么久相当于在一个长度为1的线段上随机放置点,那么将会有两类点连续点(距离很近)和线段两端的点(距离很远),这些点的平均距离是1/3。 证明可以做如下变换,取数轴上的区间[0,h],两点的随机左边为a,b. 则a,b相互独立,都服从[0,h...原创 2018-05-31 17:05:18 · 3063 阅读 · 0 评论