数据仓库与数据挖掘
文章平均质量分 86
小江_xiaojiang
这个作者很懒,什么都没留下…
展开
-
四种聚类方法之比较
聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等[1]。 聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能转载 2014-11-30 09:31:52 · 1240 阅读 · 0 评论 -
协同过滤算法mahout实现
引言 在上一节中介绍了协同过滤的主要算法,并转载了其python的实现代码。自己也用java实现了,但是相比mahout效率还是比不上。下面是基于mahout实现的UserCF,ItemCF,SlopOne算法。基于用户的推荐 UserCFpackage com.datamine.CollaborativeFiltering;import ja原创 2016-03-28 11:42:18 · 1976 阅读 · 0 评论 -
文本分类——NaiveBayes
前面文章已经介绍了朴素贝叶斯算法的原理,这里基于NavieBayes算法对newsgroup文本进行分类测试。文中代码参考:http://blog.csdn.net/jiangliqing1234/article/details/39642757主要内容如下:1、newsgroup数据集介绍数据下载地址:http://download.csdn.net/detail/hjy原创 2016-03-28 15:00:19 · 4806 阅读 · 0 评论 -
文本分类——KNN算法
上一篇文章已经描述了朴素贝叶斯算法newgroup的分类实现,这篇文章采用KNN算法实现newgroup的分类。文中代码参考:http://blog.csdn.net/yangliuy/article/details/74011421、KNN算法描述对于KNN算法,前面有一篇文章介绍其思想,但是按个事例采用的模拟的数值数据。本文将采用KNN进行文本分类。算法步骤如下:(1)文本预处原创 2016-03-28 15:26:59 · 15560 阅读 · 0 评论 -
关联规则—频繁项集Apriori算法
转载地址:http://liyonghui160com.iteye.com/blog/2080531 一、前言 频繁模式和对应的关联或相关规则在一定程度上刻画了属性条件与类标号之间的有趣联系,因此将关联规则挖掘用于分类也会产生比较好的效果。 关联规则就是在给定训练项集上频繁出现的项集与项集之间的一种紧密的联系。其中“频繁”是由人转载 2016-01-30 09:37:07 · 62607 阅读 · 2 评论 -
K最近邻算法(KNN,K-NearestNeighbor)
参考地址:1、http://baike.baidu.com/link?url=p3whMcC7Di8lJrsC8k-zk6SRC1zGTfmOCCJnhZlDg2JdPGG-QZZ_bHA2xk4XQuQUCYQyup8QbLpC2xcvzA44E5jx5t27dVhwM2UHrUIjR-ANQZuZozki1wTfZGE9zIDARoDH2-mWoQRb_eyyvGG1Iq2、http:原创 2016-02-19 10:27:35 · 8918 阅读 · 0 评论 -
协同过滤
转载地址:http://blog.csdn.net/acdreamers/article/details/44672305今天要讲的主要内容是协同过滤,即Collaborative Filtering,简称CF。 Contents 1. 协同过滤的简介 2. 协同过滤的核心 3. 协同过滤的实现 4. 协同过滤的应用 1. 协转载 2016-03-16 14:04:49 · 756 阅读 · 0 评论 -
分类——朴素贝叶斯
转载地址:http://liyonghui160com.iteye.com/blog/2087174朴素贝叶斯分类器基于统计的分类器一、病人分类的例子让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。某个医院早上收了六个门诊病人,如下表。 症状 职业 疾病 打喷嚏 护士 感冒 打喷嚏转载 2016-02-02 11:00:09 · 1415 阅读 · 0 评论 -
关联规则——FP Growth算法
转载地址:http://liyonghui160com.iteye.com/blog/2086033前面转载一篇关于FP Growth算法的实现,解释的已经很透彻了,但是感觉还是不够详细。接下来转载的这篇图文并茂,将FP Growth算法的每一个步骤解释的相当详细,并且指出其中的不足和改进的方法。FP树构造FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖转载 2016-02-02 10:42:50 · 1608 阅读 · 0 评论 -
决策树学习
算法原理决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。 如何预测先看看下面的数据表格:ID拥有房产转载 2014-11-29 19:27:54 · 619 阅读 · 0 评论 -
FP-Tree算法的实现
FP-Tree算法的实现在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置转载 2014-11-29 15:56:51 · 838 阅读 · 0 评论 -
文本聚类——Kmeans
上两篇文章分别用朴素贝叶斯算法和KNN算法对newgroup文本进行了分类测试,本文使用Kmeans算法对文本进行聚类。1、文本预处理文本预处理在前面两本文章中已经介绍,此处(略)。2、文本向量化package com.datamine.kmeans;import java.io.*;import java.util.*;import java.util原创 2016-03-28 15:55:27 · 5480 阅读 · 1 评论