数据挖掘
文章平均质量分 87
Phoenix_tgd
这个作者很懒,什么都没留下…
展开
-
决策树(一)--特征值选择
决策树是一种基本的分类和回归方法。用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试的结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值,递归地对实例进行测试和分配,直至达到叶节点,最后将实例分到叶节点的类中。决策树学习通常包括3个步骤:特征选择,决策树的生成和决策树的剪枝。特征值选择 当训练元组纬度比较大时,我们在对其进行分类的时候,要考虑选择哪一个...原创 2018-11-20 11:40:20 · 5648 阅读 · 0 评论 -
聚类算法之层次聚类
层次聚类1.1 凝聚策略按照聚类算法使用的两种不同的策略,可以将聚类算法分为两类:1)层次或凝聚式算法这类算法一开始将每个点都看成簇。簇与簇之间按照接近度(closeness)来组合,接近度可以按照“接近”的不同含义采用不同的定义。当进一步的组合导致多个原因之下的非期望结果时,上述组合过程结束。比如停止条件为:达到预先给定的簇数目,或者使用簇的紧密度测度方法,一旦两个小簇组合之后得...原创 2018-10-21 10:19:30 · 1748 阅读 · 0 评论 -
全连接和半连接
博客转自:https://blog.csdn.net/tyh70537/article/details/76768802 https://blog.csdn.net/tyh70537/article/details/75309042首先,我们先介绍要用到的图论知识图(Graph)是在聚类分析中有多种用途的一种数学结构。 图是由两个集合构成,顶点的集合用...转载 2018-10-15 15:45:58 · 5557 阅读 · 0 评论 -
关联分析(Apriori,FP-growth)
关联分析是数据挖掘中的重要组成部分,旨在挖掘数据中的频繁模式。我们可以通过一个案例数据库挖掘著名案例来大致了解挖掘频繁项集并产生关联规则。关联分析的基本概念关联分析:在大规模数据集中寻找有趣的关系频繁项集:经常出现在一起的物品集合,即包含0个或者多个项的集合关联规则:暗示两个物品之间可能存在很强的关系,形如A->B的表达式,规则A->B的度量包括支持度和置信度支持度...原创 2018-09-21 21:14:23 · 2156 阅读 · 0 评论 -
聚类算法之k-均值,k-中心点
k-means和k-中心点算法是属于简单的迭代型聚类算法,它将一个给定的数据集分为用户指定的k个聚簇。实现和运行该算法都很简单,它的速度比较快,同时又易于修改,所以在实际应用中使用非常广泛。K-means算法k-means算法是硬聚类算法,是典型的基于原型的目标函数聚类算法的代表。它是数据点到原型的某种距离作为相似性的评价指标,即两个对象的距离越接近,其相似度就越大。算法采用误差平方和准侧...原创 2018-10-11 19:23:19 · 15543 阅读 · 0 评论 -
数据挖掘聚类算法概述(有待完善)
1:聚类概念聚类是一个把数据对象划分为多个簇或者多个组的过程,使得一个簇内的对象具有很高的相似性,但与其他簇内的对象不相似。聚类算法属于无监督学习2:聚类分析概念 聚类分析是一个把数据对象划分为子集的过程,每个子集是一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似,由聚类分析产生簇的集合叫做聚类。至关重要的区别是,聚类可以自动地发现这些分组是聚类分析的突出优点。3:应用场景...原创 2018-09-26 17:06:18 · 2547 阅读 · 1 评论 -
频繁项集,频繁闭项集,最大频繁项集
转自:https://blog.csdn.net/u013007900/article/details/54743395Frequent Itemset(频繁项集)称I={i1,i2,...,im}为项(Item)的集合,D={T1,T2,...,Tn},i∈[1,n]为事务数据集(Transaction Data Itemsets),事务Ti由I中若干项组成。设S为由项组成的一个集合...转载 2018-09-14 18:52:53 · 22471 阅读 · 8 评论 -
数据挖掘概念与分析第九章笔记
原博主博客:https://blog.csdn.net/u014593570/article/details/75987793本章学习数据分类的高级技术贝叶斯信念网络书上写的比较笼统,初学者可能会看的倒懂不懂的。因此,可以看看我在本章列出的参考文章。 1.1摘要 在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应...转载 2018-09-01 09:24:03 · 2618 阅读 · 0 评论 -
决策树(二)--构造特征树和剪枝
前面记录了特征值的选取,现在我们就来说一下剪枝。决策树的剪枝在决策树创建时,由于数据中的噪声和离群点,许多分枝反映的是训练数据中的异常,剪枝方法处理这种过分拟合数据的问题。有常用的两种剪枝方法:先剪枝和后剪枝。 先剪枝:通过提前停止树的构建(例如,通过决定在给定的结点不再分裂或划分训练元组的子集)而对树"剪枝"。一旦停止,结点就成为树叶。 后剪枝:由"完全生长"的树...原创 2018-11-26 10:29:18 · 1014 阅读 · 0 评论