![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘算法
文章平均质量分 75
Whu_Xcy
这个作者很懒,什么都没留下…
展开
-
数据挖掘算法之 Naive Bayes
一、什么是Naive Bayes? 在2分类的情况下:使用类别已知的初始对象(训练数据)构造一一个划分器,使得获得叫大分值的对象同类别1关联而获得较小分值的对象同类别0关联。划分器对新对象给出分值,将该对象的得分同某个预定的“分类阈值”进行比较即可实现分类,得分大于阈值就分到类别1,小于阈值就分到类别0。 据此扩充到多分类。二、Naive Bayes 算法思想。 朴素原创 2016-10-22 14:08:04 · 953 阅读 · 0 评论 -
推荐算法——基于图模型
基于图模型(graph-based model) 将用户行为数据表示成图的形式。 如上,用户A对物品a,b,d有行为。表示成二分图之后,给用户u推荐物品可以转化为度量用户顶点vuv_{u}和与vuv_{u}没有边直连的物品节点在图上的相关性,相关性越高的物品在推荐列表中权重越高。顶点的相关性主要体现在如下方面:两个顶点之间的路径数两个顶点之间路径的长度两个顶点之间的路径经过的点相关性高的原创 2017-07-22 19:29:00 · 7660 阅读 · 0 评论 -
推荐算法——隐语义模型
LFM(latent factor model) 通过隐含特征联系用户兴趣和物品。 计算用户u对物品i的兴趣: preference(u,i)=rui=pTuqi=∑f=1Fpu,kqi,kpreference(u,i) = {r_{ui}} = p_u^T{q_i} = \sum\limits_{f = 1}^F {{p_{u,k}}{q_{i,k}}} 其中pu,kp_{u,k}度量了原创 2017-07-22 18:46:32 · 4573 阅读 · 1 评论 -
推荐算法——基于用户的协同过滤算法
步骤(1) 找到和目标用户兴趣相似的用户集合。(2) 找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。如何计算相似度? 给定用户u和用户v,令N(u)表示用户u曾经有过正反馈的物品集合,令N(v)为用户v曾经有过正反馈的物品集合。余弦相似度计算如下: wuv=|N(u)∩N(v)||N(u)||N(v)|−−−−−−−−−−√{w_{uv}} = \frac{{|N(u原创 2017-07-18 17:16:44 · 8952 阅读 · 1 评论 -
推荐系统——前言
用户数据的获取 一般是日志Log , 网页的浏览以及反馈。用户行为的分析 用户的行为符合:“长尾分布”。推荐算法基于用户的协同过滤算法基于物品的协同过滤算法数据集 GroupLens提供的MovieLens数据集。实验 离线的实验设计一般如下: 将用户行为数据均匀分为M份,挑选一份作为测试集,剩下的M-1作为训练集。在训练集中建立用户的兴趣模型,并在测试机上对用户进行预测,统原创 2017-07-18 14:58:59 · 739 阅读 · 0 评论 -
UserCF和ItemCF 比较
UserCF 原理: 给用户推荐和他有共同爱好的用户喜欢的物品,更加社会化,反映了用户所在小型兴趣群体中物品的热门程度; ItemCF 原理: 给用户推荐和他之前喜欢的物品相类似的物品,更加个性化,反应了用户自己的兴趣的传承。 方法 UserCF ItemCF 性能 用户较少的场合 物品数量明显小于用户 领域 时效性强,用户个性化不那么明显 长尾物品丰富,个性化需原创 2017-07-20 15:21:26 · 1161 阅读 · 0 评论 -
推荐算法——基于物品的协同过滤算法
基于用户的协同过滤算法在用户增长的时候,相似度计算的计算会越来越困难。基于物品的算法给用户推荐他们之前喜欢的物品相似的物品。算法步骤计算物品之间的相似度根据物品的相似度和用户的历史行为给用户生成推荐列表 相似度公式如下: wij=|N(i)∩N(j)||N(i)||N(j)|−−−−−−−−−−√{w_{ij}} = \frac{{|N(i) \cap N(j)|}}{{\sqrt {原创 2017-07-20 15:08:10 · 4041 阅读 · 0 评论 -
数据挖掘算法之 kNN
一、什么是kNNkNN 从训练集中找出k个最接近测试对象的训练对象,再从这k个训练对象中找出居于主导的类别,将其赋给测试对象。二、kNN算法思想给定一个训练集D和一个测试对象z, 算法会计算z和每个训练对象之间的距离(相似度),以此来确定最近邻的列表。然后将最近邻中实例数量占优的类别赋值给z. 算法的空间复杂度和时间复杂度都是n. 算法的流程如下: 在计算距离的原创 2016-11-19 18:25:47 · 631 阅读 · 0 评论 -
数据挖掘算法之 K-means
一、什么是K-means k-means 是一种被广泛使用的直接聚类算法,给定一个对象的集合,把这些对象划分为多个组,使得组内之间比较相似而不同的组之间差异较大。二、K-Means 算法思想K-Means 算法的输入对象是d维向量空间中的一些点,算法将集合D分为k个聚簇,集合D中的每个点属于且仅属于k个聚簇中的一个。K-Means算法默认的紧密度度量标准是欧几里得距离,算法的实质是最小原创 2016-11-16 22:21:11 · 522 阅读 · 0 评论 -
数据挖掘算法之 PageRank
一、 什么是PageRankPageRank 是Sergy Brin 和 Larry page 在1998年4月上第一次提出的,PageRank 利用网页之间的链接形成一个强有力的排名算法。PageRank 算法生成的web网页排序是静态的,这是指每个网页的排序值是通过离线计算得到的,并且该值和查询无关(基于web上的现有的链接而不考虑用户的查询)二、PageRank 算法思想把Web原创 2016-11-15 23:13:50 · 970 阅读 · 0 评论 -
数据挖掘算法之 EM 算法(高斯混合修正)
一、什么是EM算法? EM(期望最大化)算法是一种被广泛用于极大似然估计(ML)的迭代型的计算方法,对处理大量的数据不完整问题非常有用,简化有限混合模型ML拟合问题的处理,经常用在机器学习和数据聚类中。二、EM算法思想: EM算法主要分为期望步骤(E-step)和最大化步骤(M-step),以高斯混合修正为例: E-step:原创 2016-10-22 09:59:30 · 745 阅读 · 0 评论 -
数据挖掘算法之 Apriori
一、什么是Apriori算法? Apriori算法是寻找所有支持度不小于minsup的项集。项集的支持度指的是包含该项集的事务占所有事务的比例。频繁项集指的是满足给定最下支持度的项集 Apriori算法是由Agrawal等人于1993提出的,它采用逐层搜索策略(层次搜索策略)产生所有的频繁项集。 Apriori性质:原创 2016-10-21 21:20:05 · 1368 阅读 · 0 评论 -
推荐系统——标签推荐系统:UGC的标签应用
UGC: user generated content, 用户生成的内容。Delicious允许用户给互联网的每个网页打标签,从而通过标签重新组织整个互联网。CiteULike是一个著名的论文书签网站,允许研究人员提交或者收藏自己感兴趣并且给论文打标签,帮助用户更好的发现与自己领域相关的优秀论文。Last.fm分析用户的听歌行为预测用户对音乐的兴趣,从而给用户推荐个性化的音乐。豆瓣允许用户原创 2017-07-23 11:15:12 · 7017 阅读 · 0 评论