使用rapidminer对 Yeast Data Set 进行数据分析

本文使用RapidMiner对Yeast Data Set进行数据分析,探讨酵母蛋白质位点预测。首先,从UIC机器学习数据库获取数据并预处理,然后建立决策树和贝叶斯模型。尽管训练集中的决策树模型表现良好,但测试集的预测准确率较低,表明模型泛化能力不足。贝叶斯模型同样未能显著提高测试集准确性,提示需要更多数据以优化模型。
摘要由CSDN通过智能技术生成

Yeast Data Set

在这里插入图片描述


前言

通过挖掘大规模数据的相关性,研究生物学中遗传变异的方向,对于生物学发展尤其关键。目前可以通过互动检测方法发现数千种蛋白质之间的关系,并识别其中的相关性。通过对细胞属性信息的统计,预测蛋白质定位位点的情况,有利于生物研究人员研究蛋白质的结构、功能和遗传信息,同时通过神经网络帮助研究人员直接对蛋白质进行分类,节省更多时间用于研究影响位点位置的核心要素以及蛋白质内部的遗传特性。

一、对于数据集的理解

该数据来源于酵母数据集,主要目的是为了研究在以下九个属性值不同的情况下,蛋白质位点位置的不同情况。
(1)序列名称: SWISS-PROT数据库的登录号
(2)mcg: McGeoch的信号序列识别方法。
(3)gvh: von Heline的信号序列识别方法。
(4) alm: ALOM膜跨越区域预测程序的分数。
(5) mit:线粒体和非线粒体蛋白N端区域(长20个残基)的氨基酸含量的判别分析得分。
(6) er: " HDEL"子串的存在(被认为是保留在内质网腔中的信号)。二二进制属性。
(7)pox: C末端的过氧化物酶体靶向信号。
ÿ

  • 7
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值