对python的评价语_Python自然语言处理学习笔记之评价(evaluationd)

对模型的评价是在test set上进行的,本文首先介绍测试集应该满足的特征,然后介绍四种评价方法。

一、测试集的选择

1、首先,测试集必须是严格独立于训练集的,否则评价结果一定很高,但是虚高,不适用于新案例。

2、如果分类的类别比较少,比如只有两个,而且每类的样本数大致相等,那100个样本大小的测试集也是够用的;但如果类别数比较多,且分布十分不均,那测试集的大小要保证最稀少的种类的样本数不少于50;此外,如果测试集的样本相互之间比较相似,就要适当的扩大测试集来弥补多样性的缺乏对评价的影响。当样本数比较大时,通常的做法是取整个数据集的10%作为测试集。

3、测试集和训练集样本之间的相似度问题。相似度越高,评价的可信度就越低。举一个错误的例子:随机地分配来自同一个题材多篇文章的句子来组建测试集和训练集。代码如下:

>>> import random

>>> from nltk.corpus import brown

>>> tagged_sents = list(brown.tagged_sents(categories='news'))

>>> random.shuffle(tagged_sents)

>>> size = int(len(tagged_sents) * 0.1)

>>> train_set, test_set = tagged_sents[size:], tagged_sents[:size]

这是非常愚蠢的做法,因为不同的文章,作者不同,句子的特征就会不同,来自不同文章的句子可以认为具有不同的特征,这对于模型测试是有利的。但是使用random.shuffle()将所用句子的顺序打乱,来自同一篇文章的句子就同时分布在测试集和训练集中,两者的相似度更高了,使原有的优势消失。一个改进的做法是保证测试集和训练集来自不同的文章,如下:

>>> file_ids = brown.fileids(categories='news')

>>> size = int(len(file_ids) * 0.1)

>>> train_set = brown.tagged_sents(file_ids[size:])

>>> test_set =

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值