基因测序分析

339 篇文章 54 订阅
1 篇文章 0 订阅
该文探讨了基于GEO数据集的microRNA序列分析,涉及肝、尿、肾三种样本类型。通过去除零值microRNAs,利用主成分分析确定其在生物过程中的作用,并使用SVM进行分类。同时,分析了测序误差对结果的影响,提出了多项式回归的应对策略。
摘要由CSDN通过智能技术生成

B题 基因测序分析
附件中数据是来自Gene Expression Omnibus 的 microRNA序列集(GEO)(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc¼GSE79017)。microRNA是长度为18-30个核苷酸,在多种生物过程中起到重要调节作用。数据集有三个类,其中肝12例,尿18例,肾18例从血浆中,用832个microRNAs进行测量。数据里大约占所有数值的66.1%和832个数值中的127个所有样本的microRNA都等于零。除去这127个microRNAs,其余的基因中仍有59.9%的,microRNAs值为0。请基于对数据分析和分类处理解决以下问题:
1、给出不同水平值microRNA在生物过程中起到的作用;
2、在问题1的基础上,考虑训练样本是两个类别,检验样本有三个类别如何进行分析和分类处理,不同水平的microRNA在生物过程中的作用发生了何种变化.
3、分析如果给出的microRNA的测序值有误差时,对结果有何影响。
数据读取处理后的结果:
在这里插入图片描述

变为excel后的结果:
在这里插入图片描述

上述题中问题一直接使用主成分分析法确定影响不同microRNA权重,分析影响程度及作用
问题二我们直接使用机器学习中的SVM分类算法即可,具体详细算法代码
针对问题三中的误差对结果的影响,这里就需要采用多项式回归来做了。

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值