机器学习与主动学习

1.利用主动学习方法,基于一个可以衡量样本有用性的评估函数,利用该函数估计出每个样本对于分类预测的价值从而主动挑选出最具价值的样本。

把主动学习方法引入蛋白亚细胞定位预测问题中,基于损失函数和标签概率,构建非实验标记样本挑选算法。利用三个分类器在三个数据集上进行实验,按照挑选出来的顺序把非实验样本逐渐加入到原始训练集中重新训练当前分类器并用测试集测试分类器的性能。

实验结果一方面表明取得的最好预测结果均比未加非实验样本和加入所有非实验样本时高,这说明该算法可以选择合适数量的非实验样本从而提高预测效果;
另一方面表明训练数据缺乏问题比较严重时,预测效果提高的也越多,这说明非实验样本对于提高分类器性能的重要性。
因此基于主动学习的非实验蛋白数据挑选算法能够有效实现最具价值样本的挑选,可以有效地解决蛋白亚细胞定位预测中实验数据缺乏的问题。
多元统计方法一般采用多元高斯分布。

多元统计模型虽然易于揭示基本生物统计规律,但是预测能力比较差,一方面因为模型不易克服噪音和异常数据的影响,另一方面因为多元统I十方法难以集成多种异构蛋白特征信息。

在机器学习领域,模式识别(Pattern Recognition]就是对一个给定的值进行处理和分析后分配一个标签的过程,典型的例子就是分类问题。

模式识别问题非常具有一般性,输出类型也有很多。基于模式识别的预测方法就是运用数学和工程学工具从完整的蛋白质序列中提取能够描述该蛋白质特征的模式。

本文提出了一种主动选择单标签样本的方法,在多个数据集上进行实验。该方法通过选择额外的非实验数据来解决数据缺乏的问题。假设已经利用现有的训练数据训练好了一个分类器,该方法是基于一个可以衡量每个非实验样本的有用性并挑选出最具价值的样本作为候补训练数据的框架,利用该框架就可以挑选出有用的样本,然后把挑选出的样本加入到原始训练集重新训练已有的分类器,从而可以得到更好的预测结果。

2.****Very important

机器学习中的主要分类算法

  1. KNN近邻
  2. SVM支持向量机
  3. 高斯过程模型

    2.1 KNN特点
    优点:算法简单,研究人员在写算法程序时比较容易。
    缺点: 1)一是当样本数量不平衡时,有可能导致当输入一个新样本时,该样本的K个近邻中数量较多的类的样本占多数,那么这个新样本将会被归为数量较多的这一类,导致分类准确率降低;
    2)二是计算量较大,因为对每个新样本进行分类时,都要计算该样本与所有训练样本的距离,目前常用的解决方法是事先去除对分类作用较小的样本。

3.主动学习技术
传统的被动学习构造训练集时采用随机抽样的方法,这种分类模型性能较差,容易受到噪音样本的干扰,这种随机抽样方法选择的数据不能满足研究人员的要求。
近几年,主动学习方法发展迅速,利用该方法,学习器可以主动地选择训练数据,具备了这种灵活性之后,学习器就降低了对大批量标注样本的需求。
在标注样本缺乏的情况下,分类器仍然可以利用某些对分类有用的未标注样本来提高分类器的性能。
主动学习就可以实现这个目的,主动学习主要基于机器学习的方法,利用某种方法从未标注样本中选择对分类有价值的数据从而提高分类效果。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值