自然语言处理--大作业

自然语言处理--大作业

1.问题描述:比较三个分类器在影评分类任务上的性能,训练机1500,测试集500;朴素贝叶斯有三个常用模型:高斯、多项式、伯努利;KNN选择k(最好是交叉验证);SVM选择核函数。问题要求:对每个模型简述原理,说明每个参数调整的意义,简单概括3个分类器在影评分类上的性能。

2.综述如何使用ROC曲线和AUC评价一个二值分类器。

 


1.1原理:

  朴素贝叶斯模型:选择具有最高后验概率作为确定类别的指标。

  KNN模型:如果待测样本在特征空间中的k个最邻近样本中的大多数属于某一个类别,则该样本也属于这个类别,并拥有这个类别上样本的特征。实现确定近邻数,一般为奇数;根据事先确定的距离度量公式(欧式距离),计算待分类数据点和所有已分类样本点之间的距离,并计算出最近的k个样本点;统计哥哥样本点中,各个类别的数量,数量最多的样本类型,即为待分类数据的类型。当样本数量不平衡时,一个类的样本数量很大,而其他样本数量很少时,很有可能导致,当输入一个未知样本时,该样本的K个邻居中大数量类样本占多数;可以通过为距离设置权值来改进,与该样本距离大的权值小,与该样本距离小的权值大。

  SVM:支持向量机是一种回归和支持向量机算法,通过调节核函数参数的设置,可将数据集映射到多维平面上,对其细粒度化,从而使它的特征从二维变成多维,将在二维上线性不可分的问题转化为在多维上线性可分的问题,最后再寻找一个最优切割平面(相当于在决策树基础上再寻找一个最优解),因此svm的分类效果是优于大多数的机器学习分类方法的。

  线性核函数:主要用于线性可分的情况,我们可以看到特征空间到输入空间的维度是一样的,其参数少速度快,对于线性可分数据,其分类效果很理想,因此我们通常首先尝试用线性核函数来做分类,看看效果如何,如果不行再换别的。

  多项式核函数可以实现将低维的输入空间映射到高纬的特征空间,但是多项式核函数的参数多,当多项式的阶数比较高的时候,核矩阵的元素值将趋于无穷大或者无穷小,计算复杂度会大到无法计算。

  高斯径向基函数是一种局部性强的核函数,其可以将一个样本映射到一个更高维的空间内,该核函数是应用最广的一个,无论大样本还是小样本都有比较好的性能,而且其相对于多项式核函数参数要少,因此大多数情况下在不知道用什么核函数的时候,优先使用高斯核函数。

  采用sigmoid核函数,支持向量机实现的就是一种多层神经网络。

  在选择核函数时,吴恩达在课上提到过几种方法:  

  • 如果特征的数量大到和样本数量差不多,则选用LR或者线性核的SVM;
  • 如果特征的数量小,样本的数量正常,则选用SVM+高斯核函数;
  • 如果特征的数量小,而样本的数量很大,则需要手工添加一些特征从而变成第一种情况。 

 

1.2 比较三个算法在影评分类上的性能

1.2.1 SVM四个不同核函数的效果比较:

  

结果显示:SVM四个核函数中linear效果最好,ploy最差。

1.2.2 KNN的最佳k值

  要求使用交叉验证,选择kfold算法,K-folds算法是把数据分成k份,进行k此循环,每次不同的份分别来充当测试组数据。一般选择kfold=10.

对于训练集[:1500,,:],选择k在[1,40]之间。

结果显示:在k = 22 时验证的效果最好

1.2.3 朴素贝叶斯

结果显示:MultionmialNB模型效果最好,达到0.83

<
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值