无监督学习
文章平均质量分 77
爱哭的猫ff
在校软件工程学生
展开
-
基于协同过滤的推荐引擎
对于推荐系统大家都很熟悉,几乎每天都能碰到,今天我们就再来看看基于物品的协同过滤的推荐引擎。这里的协同过滤推荐引擎主要是根据用户已经对商品的评分来估计用户对没有进行评分的商品的可能评分。要想估算物品的评分就要算出物品间的相似度,这里介绍几种用于计算相似度的方法:def ecludSim(inA,inB): return 1.0/(1.0 + la.norm(inA - inB))第一中原创 2016-03-16 18:32:32 · 855 阅读 · 0 评论 -
k--Means
前面我们大致介绍了一些回归、预测算法,它们都属于监督学习算法的范畴,今天我们将接触到一种无监督学习的算法k--Means算法。这个算法很好理解。k就代表要要分的多少个类,每个类都聚到一堆,怎么算同一类呢?既然同一类都到一堆了,肯定是根据距离来进行计算的。首先我们需要随机选取k个点,然后算出数据集中各个点距离哪一个点最近就属于那一类。一次遍历之后需要重新确定k个点的位置,再次遍历。直到符合最终条件为原创 2016-03-14 18:11:31 · 605 阅读 · 0 评论 -
k-Means(二分k-均值算法)
在上一节中我们已经讲了k-均值算法,当时我们选取的质心是随机选取的,没有什么依据,所以聚类的结果很可能出现误差,为了降低这种误差的出现我们今天来研究一种优化的k-均值算法----二分k--均值算法,看到名称我们就能明白在每次划分的时候都是将数据划分成俩份,直到达到我们要求的聚类数。怎么来分?选取哪一堆数据来分?需要我们计算,这里我们引入一个叫做误差平方和的指标,这个指标越小就代表所分的数据越准确。原创 2016-03-14 18:49:52 · 2391 阅读 · 0 评论 -
Apriori算法
在讨论这个算法之前需要知道什么是频繁项集以及关联规则,频繁项集是经常出现在一块的集合,关联规则是暗示两种物品之间有很强的关系。今天这个算法就是解决这个问题的,首先我们讨论频繁项集,支持度是频繁项集频繁的一个重要指标,支持度越高说明频繁程度越高。举个例子:比如有五组商品,其中出现某一种商品的次数是二,那么它的支持度就是2/5,如果某两种商品组合出现在一起的次数是1,那么它的支持度就是1/5,这就是支原创 2016-03-14 19:59:51 · 411 阅读 · 0 评论 -
Apriori2(关联规则)
上一节我们讨论了频繁项集,这一节我们就用频繁项集挖掘关联规则,频繁项集有支持度的指标,关联规则则有可信度的指标,关于支持度一看很类似贝叶斯公式:{尿布,啤酒}/{尿布}这就算出了尿布的支持度。接下来就来看一看def generateRules(L, supportData, minConf=0.7): bigRuleList = [] for i in range(1, len(原创 2016-03-14 20:24:08 · 647 阅读 · 0 评论