数据挖掘
文章平均质量分 79
iteye_18070
这个作者很懒,什么都没留下…
展开
-
朴素贝叶斯分类器的实现 (php)
本文用php实现了一个朴素贝叶斯分类器,针对属性值为离散型变量的记录进行贝叶斯分类。 通过对sample.csv文件中数据的学习,得到分类模型,然后对predict.csv中的数据的类指标进行预测。针对每个被预测数据,计算属于每个类的概率,然后概率最大的类就是该数据被预测的类归属。 附件中包含了程序文件:bys.php,样本文件:sample.csv,待预测数据文件:pred...原创 2011-02-14 13:41:54 · 260 阅读 · 0 评论 -
DTW算法时序应用与实现
关于dtw算法:dtw算法最初应用于语音识别中的孤音识别。即已知某个词的音频模板,给定一个新的音频序列之后,通过检测该词的音频模板与新音频序列之间的相似度,来判断该音频是否是该词。 问题在于,即使是同一个词,由于人的发音有语速、节奏、习惯的不同,其音频也不可能完全一致。 这种不一致,体现在序列长度、某个音节的音长等方面。 DTW(动态时间规整)算法应运而生:...2014-10-31 19:41:05 · 1048 阅读 · 0 评论 -
关于连续值离散化[MODL]
将连续值离散化的问题,在数据挖掘和机器学习的任务中并不鲜见,当然离散化的方法也有很多。本文将要介绍的是一种基于数据标签(label)来对连续数据值做离散化分割的监督学习方法。 问题:考虑有如下数据: 1,0 2,0 3,0 4,0 5,0 6,1 7,1 8,1 9,1 10,1第一列是连续值数...原创 2014-10-18 22:30:01 · 1079 阅读 · 0 评论 -
谱聚类算法实现
谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法。将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。"带权无向图"这个词太学术了,我们换一种叫法,即:相似度矩阵。假设我们有一个相似度矩阵,矩阵中存的是所有对象的两两相似度。 那么这个矩阵应该有如下性质:矩阵为N * N,N为...原创 2014-09-16 18:25:49 · 1395 阅读 · 0 评论 -
白话NMF(Non-negative Matrix Factorization)——Matlab 实现
NMF——非负矩阵分解。如果你事先了解PMF[概率矩阵分解]的话,那么其实只要在PMF的基础上多加上一点,就是NMF了。 方法一: 在PMF中使用SGD【随机梯度下降】进行优化时,使用如下的迭代公式: 其中P、Q分别代表原始矩阵R的两个维度的隐含矩阵,在推荐应用中,一般讲P看做用户矩阵、Q看做物品矩阵。 从公式中不难看出,无论P矩阵还是Q矩阵都会出现...2014-07-22 21:21:45 · 1294 阅读 · 0 评论 -
BPR [Bayesian Personalized Ranking] 算法详解及应用实践
在推荐系统的实现中,几乎总会遇到从较多候选集中为用户选取特定的少数几个物品进行推荐,这本质上是一个Ranking问题。 在推荐场景中用户更缺乏耐性,对推荐结果的消费也十分有限。因此,排序的好坏直接决定了用户对一个准确率为90%的推荐候选集的满意度是否真的有90%。 这里我们为大家介绍一种“基于贝叶斯后验优化的个性化排序算法”:Bayesian Personalized Rank...原创 2014-06-04 19:10:44 · 1633 阅读 · 0 评论 -
【0-1】矩阵分解
基于矩阵分解的推荐算法已经在工业界被广泛应用。这类算法希望用同一个空间的维度来描述推荐过程中两个实体(用户、物品)的隐语义的特征。 无论是基于数值的矩阵分解如PMF[SVD],还是基于概率的矩阵分解如PLSA、LDA,都是如此。只不过,用于PMF分解的评分矩阵中包含了用户对所访问物品的评分,而PLSA、LDA面对的数据则只能是用户有过某种访问行为的物品集合。 仅从信息量...2014-05-19 17:35:43 · 449 阅读 · 0 评论 -
推荐算法之协同过滤实战
协同过滤(Collective Filtering)可以说是推荐系统的标配算法。在谈推荐必谈协同的今天,我们也来谈一谈基于KNN的协同过滤在实际的推荐应用中的一些心得体会。 我们首先从协同过滤的两个假设聊起。 两个假设:用户一般会喜欢与自己喜欢物品相似的物品用户一般会喜欢与自己相似的其他用户喜欢的物品上述假设分别对应了协同过滤的两种实现方式:基于物品相似(i...原创 2014-02-01 23:02:51 · 735 阅读 · 0 评论 -
深入理解GBDT
GBDT 全称为 Gradient Boosting Decision Tree。顾名思义,它是一种基于决策树(decision tree)实现的分类回归算法。不难发现,GBDT 有两部分组成: gradient boosting, decision tree。Boosting 作为一种模型组合方式,与gradient descent 有很深的渊源,它们之间究竟有什么关系?同时 decision...2016-05-10 16:20:03 · 612 阅读 · 0 评论 -
决策树的数学原理
说到决策树,大家肯定不陌生,由于其结构简单,学习成本低,且可解释性强,有着广泛的应用。因此各类书籍、技术博客都有介绍,且深入浅出、图文并茂、生动形象。 鉴于已经有很多带图的博客介绍决策树,这里就不上图了,主要以公式推导为主。 本文主要分三块内容来介绍决策树:首先会简单回顾下决策树的内容,由于这部分相对简单,大家了解的也多,因此会快速过一遍。随后本文会对决策树的数...原创 2016-04-11 11:37:11 · 611 阅读 · 0 评论 -
基于 FP-Tree 的关联规则挖掘——Bash实现
本文假设读者至少有对数据挖掘中的关联规则有基本了解,对Apriori算法的实现有一定了解。 在此基础上,我们讨论一种比Apriori更加高效的关联规则挖掘方法——基于FP-Tree的关联规则挖掘。 (一) 关于Apriori: Apriori是关联规则挖掘中最最最经典的算法,没有之一。同时,它也是向初学同学阐明关联规则精髓的最佳武器。 首先,我们简单回顾下Apri...原创 2012-06-18 15:30:51 · 336 阅读 · 0 评论 -
数据挖掘中 决策树算法实现——Bash
一、决策树简介: 关于决策树,几乎是数据挖掘分类算法中最先介绍到的。决策树,顾名思义就是用来做决定的树,一个分支就是一个决策过程。 每个决策过程中涉及一个数据的属性,而且只涉及一个。然后递归地,贪心地直到满足决策条件(即可以得到明确的决策结果)。 决策树的实现首先要有一些先验(已经知道结果的历史)数据做训练,通过分析训练数据得到每个属性对结果的影响的大小,这里我...2012-07-20 13:00:41 · 171 阅读 · 0 评论 -
Viterbi 算法应用实现
算法简介:Viterbi 算法又叫维特比算法,其是HMM模型中在给出观测序列O,以及状态转移举证M 和 状态-观测矩阵Q之后,求解能够最佳解释序列O的状态序列S的一种动态规划算法。具体如下图所示:其中: 标记为O的 [0|1] 序列是观测序列, 标记为S的序列中横向的箭头即状态在根据转移矩阵M进行转移, 其中S序列与O序列之间向下的箭头表示根据状态生成...2014-12-22 10:51:43 · 198 阅读 · 0 评论