自然语言处理--大作业

最新推荐文章于 2024-01-21 23:13:24 发布

Qamra_Chen

最新推荐文章于 2024-01-21 23:13:24 发布

阅读量1.9k

点赞数 2

本文链接：https://blog.csdn.net/Qamra_Chen/article/details/88401100

版权

该博客详细对比了朴素贝叶斯（高斯、多项式、伯努利）、KNN（k值选择）和SVM（线性、多项式、高斯、sigmoid核函数）在影评分类任务上的性能。SVM的线性核函数表现最佳，KNN在k=22时验证效果较好，MultinomialNB的朴素贝叶斯模型达到0.83的准确率。同时，讨论了ROC曲线和AUC在评价二值分类器中的应用。

摘要由CSDN通过智能技术生成

自然语言处理--大作业

1.问题描述：比较三个分类器在影评分类任务上的性能，训练机1500，测试集500；朴素贝叶斯有三个常用模型：高斯、多项式、伯努利；KNN选择k（最好是交叉验证）；SVM选择核函数。问题要求：对每个模型简述原理，说明每个参数调整的意义，简单概括3个分类器在影评分类上的性能。

2.综述如何使用ROC曲线和AUC评价一个二值分类器。

1.1原理：

　　朴素贝叶斯模型：选择具有最高后验概率作为确定类别的指标。

　　KNN模型：如果待测样本在特征空间中的k个最邻近样本中的大多数属于某一个类别，则该样本也属于这个类别，并拥有这个类别上样本的特征。实现确定近邻数，一般为奇数；根据事先确定的距离度量公式（欧式距离），计算待分类数据点和所有已分类样本点之间的距离，并计算出最近的k个样本点；统计哥哥样本点中，各个类别的数量，数量最多的样本类型，即为待分类数据的类型。当样本数量不平衡时，一个类的样本数量很大，而其他样本数量很少时，很有可能导致，当输入一个未知样本时，该样本的K个邻居中大数量类样本占多数；可以通过为距离设置权值来改进，与该样本距离大的权值小，与该样本距离小的权值大。

　　SVM：支持向量机是一种回归和支持向量机算法，通过调节核函数参数的设置，可将数据集映射到多维平面上，对其细粒度化，从而使它的特征从二维变成多维，将在二维上线性不可分的问题转化为在多维上线性可分的问题，最后再寻找一个最优切割平面（相当于在决策树基础上再寻找一个最优解），因此svm的分类效果是优于大多数的机器学习分类方法的。

　　线性核函数：主要用于线性可分的情况，我们可以看到特征空间到输入空间的维度是一样的，其参数少速度快，对于线性可分数据，其分类效果很理想，因此我们通常首先尝试用线性核函数来做分类，看看效果如何，如果不行再换别的。

　　多项式核函数可以实现将低维的输入空间映射到高纬的特征空间，但是多项式核函数的参数多，当多项式的阶数比较高的时候，核矩阵的元素值将趋于无穷大或者无穷小，计算复杂度会大到无法计算。

　　高斯径向基函数是一种局部性强的核函数，其可以将一个样本映射到一个更高维的空间内，该核函数是应用最广的一个，无论大样本还是小样本都有比较好的性能，而且其相对于多项式核函数参数要少，因此大多数情况下在不知道用什么核函数的时候，优先使用高斯核函数。

　　采用sigmoid核函数，支持向量机实现的就是一种多层神经网络。

　　在选择核函数时，吴恩达在课上提到过几种方法：　　

如果特征的数量大到和样本数量差不多，则选用LR或者线性核的SVM；
如果特征的数量小，样本的数量正常，则选用SVM+高斯核函数；
如果特征的数量小，而样本的数量很大，则需要手工添加一些特征从而变成第一种情况。

1.2 比较三个算法在影评分类上的性能

1.2.1 SVM四个不同核函数的效果比较：

结果显示：SVM四个核函数中linear效果最好，ploy最差。

1.2.2 KNN的最佳k值

　　要求使用交叉验证，选择kfold算法，K-folds算法是把数据分成k份，进行k此循环，每次不同的份分别来充当测试组数据。一般选择kfold=10.

对于训练集[:1500,,:]，选择k在[1,40]之间。

结果显示：在k = 22 时验证的效果最好

1.2.3 朴素贝叶斯

结果显示：MultionmialNB模型效果最好，达到0.83

最低0.47元/天解锁文章

Qamra_Chen

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理--大作业

自然语言处理--大作业 1.问题描述：比较三个分类器在影评分类任务上的性能，训练机1500，测试集500；朴素贝叶斯有三个常用模型：高斯、多项式、伯努利；KNN选择k（最好是交叉验证）；SVM选择核函数。问题要求：对每个模型简述原理，说明每个参数调整的意义，简单概括3个分类器在影评分类上的性能。2.综述如何使用ROC曲线和AUC评价一个二值分类器...
复制链接

扫一扫