任务描述
本关任务:根据所学各种分类器的基础知识,完成右侧对应的练习题。
相关知识
为了完成本关任务,你需要掌握:
-
朴素贝叶斯的原理;
-
逻辑回归的具体含义;
-
支持向量机的思想。
朴素贝叶斯
朴素贝叶斯方法是基于贝叶斯定理与特征条件独立假设的分类方法(所以叫朴素版的贝叶斯),对于给定的训练集合,首先基于特征条件独立学习输入、输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
朴素贝叶斯分类常用于文本分类,尤其是对于英文等语言来说,分类效果很好。它常用于垃圾文本过滤、情感预测、推荐系统等。朴素贝叶斯方法简单,学习与预测的效率都很高,是常用的方法。朴素贝叶斯的思维导图如图1所示。
图 1 朴素贝叶斯思维导图
采用朴素贝叶斯进行数据分类的过程大致可以分为三个阶段:
1、第一阶段:准备阶段
在这个阶段我们需要确定特征属性,同时明确预测值是什么。并对每个特征属性进行适当划分,然后由人工对一部分数据进行分类,形成训练样本。
这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。
2、第二阶段:训练阶段
这个阶段就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率。输入是特征属性和训练样本,输出是分类器。
3、第三阶段:应用阶段
这个阶段是使用分类器对新数据进行分类。输入是分类器和新数据,输出是新数据的分类结果。
朴素贝叶斯算法的逻辑性十分简单,并且算法较为稳定,当数据呈现不同的特点时,朴素贝叶斯的分类性能不会有太大的差异。换句话说就是朴素贝叶斯算法的健壮性比较好,对于不同类型的数据集不会呈现出太大的差异性。当数据集属性之间的关系相对比较独立时,朴素贝叶斯分类算法会有较好的效果。
逻辑回归
逻辑回归( logistic regression )是统计机器学习中的经典方法,虽然简单,但是由于其模型复杂度低,不容易过拟合,计算复杂度小,所以在工业界被大规模应用逻辑斯蒂,其函数结构如图2所示。
图 2 逻辑斯蒂函数
对于给定的数据集,应用极大似然估计法估计模型参数,从而可以得到对数似然函数,最终得到更新参数的式子。
逻辑回归有很多优点,比如实现简单、分类时计算量小、速度快、存储资源低等;缺点也是明显的,比如容易过拟合、准确度欠佳等。
支持向量机
支持向量机( Support Vector Machine,SVM )是一种经典的分类模型,在早期的文档分类等领域有一定的应用。通俗地说,支持向量机( SVM )的最终目的是在特征空间中寻找到一个尽可能将两个数据集合分开的超级平面( hyper- plane )。支持向量机的模型结构如图3所示。
图 3 支持向量机模型
SVM 算法的优点:
-
可用于线性/非线性分类,也可以用于回归;
-
低泛化误差;
-
推导过程优美,容易解释;
-
计算复杂度较低;
SVM 算法的缺点:
-
对参数和核函数的选择比较敏感;
-
原始的 SVM 只擅长处理二分类问题。
作答要求
根据相关知识,按照要求完成右侧选择题任务。作答完毕,通过点击“测评”,可以验证答案的正确性。
参考资料
参考答案
-
1、朴素贝叶斯算法训练阶段的输出是什么? C
A、新数据的分类结果
B、特征属性和训练样本
C、分类器
D、训练样本的出现频率 -
2、选出逻辑回归的优点? AC
A、实现简单
B、准确度很高
C、分类时计算量小
D、容易过拟合