数据挖掘算法

目录

 

1.简述数据挖掘概念。

2.根据预测方法的性质将预测方法分为哪些类?各有何优缺点?

3.时序预测方面典型的算法有哪些?各有什么特点?

4.根据研究的方式分类,可将时间序列预测与挖掘分为哪些类?   

5.什么是序贯模式挖掘SPMGC算法?

6.数据挖掘的常用算法有哪几类?有哪些主要算法?

7.数据挖掘方法中分类的含义?分类与聚类方法的区别? 

8.时间序列预测方法分哪几类?主要适用领域是哪些?

9.按照数据挖掘的应用场景分类,数据挖掘的应用主要涉及哪些领域?

10.根据适用的范围,数据挖掘工具分为哪些类?

11.数据挖掘中的挖掘工具有哪些?各有什么特点?

12.数据挖掘SPSS软件的适用场合与特点有哪些?


1.简述数据挖掘概念。

  从科学定义上分析,数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事前不知道的、具有潜在利用价值的信息和知识的过程。

  从技术角度分析。数据挖掘就是利用一系列的相关算法和技术,从大数据中提取行业或公司所需要的、有实际应用价值的知识的过程。

  数据挖掘是整个知识发现流程中的一个具体步骤,也是知识发现过程中最重要的核心步骤。

2.根据预测方法的性质将预测方法分为哪些类?各有何优缺点?

  (1)定性预测方法,对系统过去与现在的经验、判断和直觉进行预测,以人的逻辑判断为主,要求提供系统发展的方向、状态、形式等定性结果,该方法适用于缺乏历史统计数据的系统。

  (2)时间序列预测,根据系统对象随时间变化的历史资料,考虑系统变量随时间的变化规律,对系统未来的表现时间进行定量预测,主要包括移动平均法、指数平滑法、趋势平推法等,适用于利用统计数据预测研究对象随时间变化的趋势。

  (3)因果关系预测,系统变量之间存在某种前因后果关系,找出影响某种结果的因素,建立因与果之间的数学模型,根据因素变量的变化预测结果变量的变化,既预测系统发展的方向又确定具体的数值变化规律。

3.时序预测方面典型的算法有哪些?各有什么特点?

   序贯模式挖掘SPMGC算法,SPMGC算法可以有效地发现有价值的数据序列模式,提供给大数据专家进行各类时间序列的相似性与预测研究。

4.根据研究的方式分类,可将时间序列预测与挖掘分为哪些类?   

  (1)将时间序列数据作为一种特殊的数据挖掘对象,找寻对应的数据挖掘算法进行研究。

  (2)从时间序列数据中提取并组建特征,仍用原有的数据挖掘框架和算法进行数据挖掘。

5.什么是序贯模式挖掘SPMGC算法?

  序贯模式挖掘SPMGC算法是基于时间窗口、时间因素、挖掘结果等约束条件组成的广义约束条件给出的算法。SPMGC算法首先对约束条件按照优先级进行排序,然后根据约束条件产生候选序列,SPMGC算法说明了怎样使用约束条件来挖掘序贯模式。

6.数据挖掘的常用算法有哪几类?有哪些主要算法?

  (1)分类。在给定数据基础上构建分类函数或分类模型,该函数或模型能够把数据归类为给定类别中的某一类别。主要算法:贝叶斯决策与分类器、SVM算法、

  (2)聚类。聚类也就是将抽象对象的集合分为相似对象组成的多个类的过程,聚类过程生成的簇称为一组数据对象的集合。主要算法:层次聚类算法、划分聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法。

  (3)关联规则。关联规则就是支持度和信任度分别满足用户给定阈值的规则。主要算法:Apriori算法、FP-Growth算法

  (4)时间序列预测。一种历史引申预测法,也即将时间数列所反映的时间发展过程进行引申外推,预测发展趋势的一种方法。主要算法:SPMGC算法

7.数据挖掘方法中分类的含义?分类与聚类方法的区别? 

  分类是一种重要的数据分析方式,根据重要数据类的特征向量值及其他约束条件,构造分类函数或分类模型,目的是根据数据集的特点把未知类别的样本映射到给定类别中。

  聚类就是将具体或抽象对象的集合分组由相似对象组成的为多个类或簇的过程。由聚类生成的簇是一组数据对象的集合,簇必须满足:每个簇至少包含一个数据对象,每个数据对象必须属于且唯一的属于一个簇。

  分类属于有监督学习,聚类属于无监督学习。

8.时间序列预测方法分哪几类?主要适用领域是哪些?

   常用的时间序列预测方法有简单移动平均法、加权移动平均法、指数平滑法和季节因素调整法等。
    1)简单移动平均法适用于主要存在随机变动的时间序列。
    2)加权移动平均法适用于存在多种变动因素的场合。
    3)指数平滑法的作用与加权移动平均法相似,它是通过调整平滑系数来起到反映时间序列特点的作用。
    4)季节因素调整法适用于存在很强的季节变动的时间序列。

9.按照数据挖掘的应用场景分类,数据挖掘的应用主要涉及哪些领域?

    (1)数据挖掘在电信行业的应用。

  (2)数据挖掘在商业银行中的应用。

  (3)数据挖掘在信息安全中的应用。

  (4)数据挖掘在科学探索中的应用。

10.根据适用的范围,数据挖掘工具分为哪些类?

     (1)专用挖掘工具。针对某个特定领域的问题提供解决方案在涉及算法的时候充分考虑数据、需求的特殊性。

  (2)通用挖掘工具。通用挖掘工具可以做多种模式的挖掘,至于挖掘的内容与挖掘工具都可以由用户自己来选择。

11.数据挖掘中的挖掘工具有哪些?各有什么特点?

  (1)Weka软件。公开的数据挖掘平台,集成大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则,以及交互式界面上可视化。  

  (2)SPSS软件。SPSS采用类似于Excel表格的方式输入与管理数据,数据接口较为通用,能方便地从其他数据库中读入数据,突出特点是操作界面友好,且输入结果美观。

  (3)Clementine软件。Clementine提供出色、广泛的数据挖掘技术,确保用恰当的分析技术来处理相应的商业问题,得到最优结果以应对随时出现的问题。

  (4)RapidMiner软件。RapidMiner并不支持分析流程图方式,当包含的运算符比较多时就不容易查看,具有丰富的数据挖掘分析和算法功能,常用于解决各种商业关键问题。

  (5)其他数据挖掘软件。流行的数据挖掘软件还包括Orange、Knime与Tanagra等,各有特点以满足不同需求。

12.数据挖掘SPSS软件的适用场合与特点有哪些?

  适用场合:SPSS具有完整的数据输入、统计分析、报表、编辑、图形制作等功能,提供从简单的统计描述到复杂的多因素统计分析方法。

  SPSS软件特点:操作界面友好,且输出结果美观。

数据挖掘算法 算法目录 18大DM算法 包名 目录名 算法名 AssociationAnalysis DataMining_Apriori Apriori-关联规则挖掘算法 AssociationAnalysis DataMining_FPTree FPTree-频繁模式树算法 BaggingAndBoosting DataMining_AdaBoost AdaBoost-装袋提升算法 Classification DataMining_CART CART-分类回归树算法 Classification DataMining_ID3 ID3-决策树分类算法 Classification DataMining_KNN KNN-k最近邻算法工具类 Classification DataMining_NaiveBayes NaiveBayes-朴素贝叶斯算法 Clustering DataMining_BIRCH BIRCH-层次聚类算法 Clustering DataMining_KMeans KMeans-K均值算法 GraphMining DataMining_GSpan GSpan-频繁子图挖掘算法 IntegratedMining DataMining_CBA CBA-基于关联规则的分类算法 LinkMining DataMining_HITS HITS-链接分析算法 LinkMining DataMining_PageRank PageRank-网页重要性/排名算法 RoughSets DataMining_RoughSets RoughSets-粗糙集属性约简算法 SequentialPatterns DataMining_GSP GSP-序列模式分析算法 SequentialPatterns DataMining_PrefixSpan PrefixSpan-序列模式分析算法 StatisticalLearning DataMining_EM EM-期望最大化算法 StatisticalLearning DataMining_SVM SVM-支持向量机算法 其他经典DM算法 包名 目录名 算法名 Others DataMining_ACO ACO-蚁群算法 Others DataMining_BayesNetwork BayesNetwork-贝叶斯网络算法 Others DataMining_CABDDCC CABDDCC-基于连通图的分裂聚类算法 Others DataMining_Chameleon Chameleon-两阶段合并聚类算法 Others DataMining_DBSCAN DBSCAN-基于密度的聚类算法 Others DataMining_GA GA-遗传算法 Others DataMining_GA_Maze GA_Maze-遗传算法在走迷宫游戏中的应用算法 Others DataMining_KDTree KDTree-k维空间关键数据检索算法工具类 Others DataMining_MSApriori MSApriori-基于多支持度的Apriori算法 Others DataMining_RandomForest RandomForest-随机森林算法 Others DataMining_TAN TAN-树型朴素贝叶斯算法 Others DataMining_Viterbi Viterbi-维特比算法 18大经典DM算法 18大数据挖掘的经典算法以及代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面,后面都是相应算法的博文链接,希望能够帮助大家学。 目前追加了其他的一些经典的DM算法,在others的包中涉及聚类,分类,图算法,搜索算等等,没有具体分类。 C4.5 C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断,而C4.5采用的是增益率。详细介绍链接 CART CART算法的全称是分类回归树算法,他是一个二元分类,采用的是类似于熵的基尼指数作为分类决策,形成决策树后之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法,详细介绍链接 KNN K最近邻算法。给定一些已经训练好的数据,输入一个新的测试数据点,计算包含于此测试数据点的最近的点的分类情况,哪个分类的类型占多数,则此测试点的分类与此相同,所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点,远的点自然就小点。详细介绍链接 Naive Bayes 朴素贝叶斯算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接 SVM 支持向量机算法。支持向量机算法是一种对线性和非线性数据进行分类的方法,非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。详细介绍链接 EM 期望最大化算法。期望最大化算法,可以拆分为2个算法,1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架,在每次计算结果之后,逼近统计模型参数的最大似然或最大后验估计。详细介绍链接 Apriori Apriori算法是关联规则挖掘算法,通过连接和剪枝运算挖掘出频繁项集,然后根据频繁项集得到关联规则,关联规则的导出需要满足最小置信度的要求。详细介绍链接 FP-Tree 频繁模式树算法。这个算法也有被称为FP-growth算法,这个算法克服了Apriori算法的产生过多侯选集的缺点,通过递归的产生频度模式树,然后对树进行挖掘,后面的过程与Apriori算法一致。详细介绍链接 PageRank 网页重要性/排名算法。PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准,如果1个网页内部包含了多个指向外部的链接,则PR值将会被均分,PageRank算法也会遭到LinkSpan攻击。详细介绍链接 HITS HITS算法是另外一个链接算法,部分原理与PageRank算法是比较相似的,HITS算法引入了权威值和中心值的概念,HITS算法是受用户查询条件影响的,他一般用于小规模的数据链接分析,也更容易遭受到攻击。详细介绍链接 K-Means K-Means算法是聚类算法,k在在这里指的是分类的类型数,所以在开始设定的时候非常关键,算法的原理是首先假定k个分类点,然后根据欧式距离计算分类,然后去同分类的均值作为新的聚簇中心,循环操作直到收敛。详细介绍链接 BIRCH BIRCH算法利用构建CF聚类特征树作为算法的核心,通过树的形式,BIRCH算法扫描数据库,在内存中建立一棵初始的CF-树,可以看做数据的多层压缩。详细介绍链接 AdaBoost AdaBoost算法是一种提升算法,通过对数据的多次训练得到多个互补的分类器,然后组合多个分类器,构成一个更加准确的分类器。详细介绍链接 GSP GSP算法是序列模式挖掘算法。GSP算法也是Apriori类算法,在算法的过程中也会进行连接和剪枝操作,不过在剪枝判断的时候还加上了一些时间上的约束等条件。详细介绍链接 PreFixSpan PreFixSpan算法是另一个序列模式挖掘算法,在算法的过程中不会产生候选集,给定初始前缀模式,不断的通过后缀模式中的元素转到前缀模式中,而不断的递归挖掘下去。详细介绍链接 CBA 基于关联规则分类算法。CBA算法是一种集成挖掘算法,因为他是建立在关联规则挖掘算法之上的,在已有的关联规则理论前提下,做分类判断,只是在算法的开始时对数据做处理,变成类似于事务的形式。详细介绍链接 RoughSets 粗糙集算法。粗糙集理论是一个比较新颖的数据挖掘思想。这里使用的是用粗糙集进行属性约简的算法,通过上下近似集的判断删除无效的属性,进行规制的输出。详细介绍链接 GSpan gSpan算法属于图挖掘算法领域。,主要用于频繁子图的挖掘,相较于其他的图算法,子图挖掘算法是他们的一个前提或基础算法。gSpan算法用到了DFS编码,和Edge五元组,最右路径子图扩展等概念,算法比较的抽象和复杂。详细介绍链接 Others目录下的算法: GA 遗传算法。遗传算法运用了生物进化理论的知识来寻找问题最优解的算法算法的遗传进化过程分选择,交叉和变异操作,其中选择操是非常关键的步骤,把更适应的基于组遗传给下一代。详细介绍链接 DbScan 基于空间密度聚类算法。dbScan作为一种特殊聚类算法,弥补了其他算法的一些不足,基于空间密,实现聚类效果,可以发现任意形状的聚簇。详细介绍链接 GA_Maze 遗传算法在走迷宫游戏中的应用。将走迷宫中的搜索出口路径的问题转化为遗传算法中的问题通过构造针对此特定问题的适值函数,基因移动方向的定位,巧的进行问题的求解。详细介绍链接 CABDDCC 基于连通图的分裂聚类算法。也是属于层次聚类算法主要分为2个阶段,第一阶段构造连通图。第二个阶段是分裂连通图,最终形成聚类结果。详细介绍链接 Chameleon 两阶段聚类算法。与CABDDCC算法相反,最后是通过对小簇集合的合并,形成最终的结果,在第一阶段主要是通过K近邻的思想形成小规模的连通图,第二阶段通过RI(相对互连性)和RC(相对近似性)来选一个最佳的簇进行合并。详细介绍链接 RandomForest 随机森林算法算法思想是决策树+boosting.决策树采用的是CART分类回归数,通过组合各个决策树的弱分类器,构成一个最终的强分类器,在构造决策树的时候采取随机数量的样本数和随机的部分属性进行子决策树的构建,避免了过分拟合的现象发生。详细介绍链接 KDTree K-Dimension Tree。多维空间划分树,数据在多维空间进行划分与查找。主要用于关键信息的搜索,类似于在空间中的二分搜索,大大提高了搜索效率,在寻找目标元素时,使用了DFS深度优先的方式和回溯进行最近点的寻找。详细介绍链接 MS-Apriori 基于多支持度的Apriori算法。是Apriori算法的升级算法,弥补了原先Apriori算法的不足,还增加了支持度差别限制以及支持度计数统计方面的优化,无须再次重新扫描整个数据集,产生关联规则的时候可以根据子集的关系避免一些置信度的计算。详细介绍链接 ACO 蚁群算法。蚁群算法又称为蚂蚁算法。同GA遗传算法类似,也是运用了大自然规律的算法,用于在图中寻找最优路径的概率型算法。灵感来源于蚂蚁在寻找食物时会散播信息素的发现路径行为。详细介绍链接 BayesNetwork 贝叶斯网络算法。弥补了朴素贝叶斯算法中必须要事件独立性的缺点,利用了贝叶斯网络的DAG有向无环图,允许各个事件保留一定的依赖关系,网络结构中的每个节点代表一种属性,边代表相应的条件概率值,通过计算从而能得到精准的分类效果。详细介绍链接 TAN 树型朴素贝叶斯算法。此算法又被称为加强版朴素贝叶斯算法。在满足原有朴素贝叶斯条件的基础上,他允许部条件属性直接的关联性。形成树型的结构。详细介绍链接 Viterbi 维特比算法。给定一个隐马尔科夫模型以及一个观察序列,求出潜在的状态序列信息,每个潜在状态信息又会受到前一个状态信息的影响。 算法使用方法 在每个算法中给出了3大类型,主算法程序,调用程序,输入数据,调用方法如下: 将需要数据的测试数据转化成与给定的输入格式相同 然后以Client类的测试程序调用方式进行使用。 也可以自行修改算法程序,来适用于自己的使用场景
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值