数据挖掘
文章平均质量分 76
__Ritchie__
这个作者很懒,什么都没留下…
展开
-
提高分类准确率的技术——组合分类
组合分类方法简介基本思想:组合分类把k个学习得到的模型(或基分类器)M1,M2,···,Mk组合在一起,旨在创建一个改进的复合分类器模型M*。使用给定的数据集D创建k个训练集D1,D2,···,Dk,其中Di用于创建分类器Mi。现在给定一个待分类的新数据元组,每个基分类器通过返回类预测进行投票。组合分类器基于基分类器的投票返回类预测。 目前常用的组合分类器有:装袋、提升和随机森林。下面就原创 2015-06-22 15:23:04 · 2627 阅读 · 0 评论 -
朴素贝叶斯分类
贝叶斯定理先验概率:P(H),表示事件H发生的概率。 后验概率:P(H|X),表示在已知条件X发生的情况下,事件H发生的概率。 贝叶斯定理提供了一种P(H|X)和P(X|H)的转换方式: 朴素贝叶斯分类基本假设:朴素贝叶斯分类方法假定一个属性值在给定类上的影响独立于其他属性的值。这一假定称为类条件独立性。 分类过程:设D是训练元组和它们相关联的类标号的集合。通常,每个元组用一个n维属性向量原创 2015-06-02 13:49:14 · 876 阅读 · 0 评论 -
C4.5算法
C4.5算法是对ID3算法的改进,在决策树的生成过程中,使用了信息增益率作为属性选择的方法,其具体的算法步骤如下: 输入:训练数据集D,特征集A,阈值e输入:训练数据集D,特征集A,阈值e 输出:决策树T输出:决策树T 1.如果D中所有实例属于同一类C,则置T为单结点树,并将C作为该结点的类,返回T1. 如果D中所有实例属于同一类C,则置T为单结点树,并将C作为该结点的类,返回T原创 2015-12-05 10:51:02 · 447 阅读 · 0 评论 -
ID3算法
ID3算法是决策树算法中的一种,决策树的具体教程可以看这里http://blog.csdn.net/ritchiewang/article/details/46008643 ID3算法的大致思路:从根节点开始,对接点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点;再对子结点递归地调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以原创 2015-12-05 10:32:49 · 571 阅读 · 0 评论 -
K-近邻算法(KNN)
kNN的英文全称是:k nearest neighbor,直译过来的意思就是k个最相近的邻居。所以,kNN的算法思想,简单而言,就是利用与待分类对象最相近的k个已知对象的特征,来决定待分类对象的特征。这种分类方法的思想简单,在实际分类效果中,表现也较为优异,是数据挖掘的分类领域中的一种入门算法。 下面以一个图例来具体说明kNN的具体思想: 图片中有三种颜色表示的诸多实点,分别代表了三种不同的原创 2015-10-05 11:57:34 · 390 阅读 · 0 评论 -
决策树
概述决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。决策树是一种类似于流程图的树结构。其中,每个内部节点(非树叶结点)表示在一个属性上的测试,原创 2015-05-26 15:32:18 · 6829 阅读 · 0 评论 -
决策树剪枝算法
算法目的:决策树的剪枝是为了简化决策树模型,避免过拟合。 算法基本思路:减去决策树模型中的一些子树或者叶结点,并将其根结点作为新的叶结点,从而实现模型的简化。 模型损失函数 1. 变量预定义:|T|表示树T的叶节点个数,t表示树T的叶节点,同时,NtN_t表示该叶节点的样本点个数,其中属于k类的样本点有NtkN_{tk}个,K表示类别的个数,Ht(T)H_t(T)为叶结点t原创 2015-12-10 21:19:05 · 3393 阅读 · 0 评论 -
基于规则的分类
使用IF-THEN规则分类一个IF-THEN规则:IF 条件 THEN 结论 例子: R:IF age=youth AND student=yes THEN buys_computer=yes 或 R:(age=youth)∧(student=yes)=>(buys_computer=yes) 规则前件:也称为前提,是由一个或多个用逻辑连接词连接的属性测试组成,R中指 age=youth原创 2015-06-05 15:50:55 · 1430 阅读 · 0 评论 -
组合算法
组合算法是将若干个弱分类器组合成一个强分类器的一种策略。常用的组合算法包括bagging、boostrapping和boosting。Bagging一个贴近生活的例子 假设你是一个病人,希望根据你的症状,让医生做出诊断。正确的做法,你会看多个医生,根据这些医生的不同诊断结果,选择大多数医生都认同的诊断结果。当然,由于你不知道这些医生的医术水平的高低,所以,保险的做法就是认为,每个医生诊断结果的权原创 2016-07-12 10:29:19 · 613 阅读 · 0 评论