①朴素贝叶斯:
原理è 朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。
条件概率:在B已经发生的情况下继续发生A的概率表示为,同样的
,综合可得
即贝叶斯定理;文字表述为:
P(类别|特征)=(P(特征|类别)*P(类别))/P(特征)
过程è 在劳动能力鉴定系统的使用中,(1)根据政府发布的伤残等级评定标准构建病例词典;(2)首先对病例进行分词,提取关键词的词频向量和数值大小,使用贝叶斯算法判定待鉴定人员的残疾级别;
应用è 垃圾邮件过滤、贷款风险预测
②决策树:
原理è ID3算法主要针对属性选择问题。是决策树学习方法中最具影响和最为典型的算法。该算法是在树的各个内部节点处寻找一个属性,该属性能最好地将训练集进行分类。依据贪婪算法,为了使下一步所需的信息量最小,要求每一次都选择其信息增益最大的属性作为决策树的新节点。(常用算法包括ID3和C4.5)
过程è(1)选择一个特征对样本进行分类,分类的好坏一般取决于样本集分类后的纯度(一般用熵来表示);(2)对分类后的子集递归进行步骤1;ID3步骤:(1)如果数据库中的数据都属于同一个类,N就是树叶,在树叶上 标出所属的类;如果