matlab2016聚类分析工具箱,MATLAB7.X生物信息工具箱的应用——聚类分析(七)

前言聚类分析是一种探索性的数据分析方法。根据目标研究对象的数值属性特征,采用数学方法对之进行分类整理;再对同类个体的共性及差异作进一步的归纳,从而得到新规律[1]。近年来聚类分析研究发展迅速,从数学、统计学、信息学、人工智能等角度不断有新的方法提出、改进,并在经济学、地质学、气象学、生物学等领域得到成功的应用。在目前生物信息学领域的研究中,聚类分析受到广泛重视[2]。在基因的表达、DNA序列的研究中,聚类分析己经成为标准的程序。展望生物技术发展的特点,一是将产生数量极为巨大的数据;二是基于这些大量的数据,科研活动将逐步从传统的以实验为主的方式向数据分析与实验相结合的方式过渡。在这一过程中,统计聚类分析将是开展数据分析工作的基石。MATLAB生物信息工具箱中包含的clustergram函数即用于数据的聚类分析。生物信息工具箱中这一函数主要用于基因表达数据的分析,不仅可横向聚类,还可以纵向聚类。1数据预处理我们使用的数据来自ScherfU,RossDT,WalthamM,SmithLH,LeeJK,TanabeL,KohnKW,ReinholdWC,MyersTG,AndrewsDT,ScudieroDA,EisenMB,SausvilleEA,PommierY,BotsteinD,BrownPO,WeinsteinJN的文章《Ageneexpressiondatabaseforthemolecularpharmacologyofcancer》NatureGenet-ics2000Mar;24(3):236-44.PMID:10700175[3]。1.1将数据载入MATLAB工作区例:118种预测作用的药物应用于NCI60细胞系时产生的的生长抑制因素,包含了11860个数据。原始数据可以从下列网址获得:http://discover.nci.nih.gov/nature2000/data/selected_data/a_matrix118.txt[4]。在本例中,此数据已经被转化为Excel的现代生物医学进展www.shengwuyixue.comProgressinModernBiomedicineVol.12NO.17JUN.2012电子数据表。用函数xlsread从电子数据表中读取数据。[numericData,textData]=xlsread('cancerdata.xls');数据即作为numericData和textData两个变量载入MAT-LAB,出现在workspace中。1.2从Excel表提取数据函数xlsread将电子数据表中的数据读取后作为两个变量储存。其中,变量numericData储存数值;变量textDate储存表中的所有文本信息。本例中表格的前三行都是关于实验中药物的文本信息,储存在textData变量中。%提取数据,为第二列至最后一列giValues=numericData(:,2:end);%提取药物作用机制名称,为文本变量的第一列的第二行至最后一行drugMechanism=textData(2:end,1);%提取药物名称,为文本变量的第二列的第二行至最后一行drugName=textData(2:end,2);%变量drug为变量drugMechanism和drugName用-符号水平连接drug=strcat(drugMechanism,’-’,drugName);%提取药物的ID号,为变量numericData的第一列drugID=numericData(:,1);%细胞系名称,为第一行的第四列至最后

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值