数模-化验结果判别及matlab程序,数模-化验结果判别及matlab程序

《数模-化验结果判别及matlab程序》由会员分享,可在线阅读,更多相关《数模-化验结果判别及matlab程序(15页珍藏版)》请在金锄头文库上搜索。

1、地贫患者的基因筛查问题摘 要地中海贫血(简称“地贫”)是全球广为流行、危害极为严重的遗传性溶血性疾病,全世界至少有 3.45 亿人携带地中海贫血的致病基因。医学上通过大人群的基因筛查来预防地贫患儿的出生。本文应用统计学原理,对病人以及健康人的 110 个基因进行分析,采用 Fisher 判别模型建立判别标准和多元统计模型 spss 软件进行筛选。问题一,利用费希尔模型判别待测者是否患有地贫,以编号 120 地贫患者的样本,编号 2140 健康人员的样本,分别作为模版建立模型,用 mathlab 软件求解得到待测组的患病者编号4160 个是待筛查人员的样本。问题二,为确定“地贫”样本与“健康”样。

2、本在基因链上的区别。以及癌症样本中是否有子类。我们用 120 数据为标准化并确立相关系数矩阵,求出相关矩阵的特征值和特征向量,然后通过前 m 个主成 分的累计贡献率满足 来确定贡献率矩阵,从而得出各种基因%85)1/()1( kiki 的权值,又利用初始特征值需大于 1,再运用逐步剔除法得出关键基因关键字:地贫患者的基因 Fisher 判别 筛查 相关系数矩阵- 1 -1 问题重述化验指标能够协助医生诊断。人们到医院就诊时,诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表 B.1 是确诊病例的化验结果,其中 130 号病例是已经确诊为肾炎病人的化验结果;3160 号病例是已经确定为健康。

3、人的结果。表 B.2 是就诊人员的化验结果。1. 根据表 B.1 中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性。2. 按照 1 提出的方法,判断表 B.2 中的 30 名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。3. 能否根据表 B.1 的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。4. 根据 3 的结果,重复 2 的工作。5. 对 2 和 4 的结果作进一步的分析。2 问题分析问题解决的关键是如何正确判断正常人与患者之间的差异,利用所给数据,可以选择用医学统计方法 1中的判别分析法 2进行分。

4、析。从题目给出的表中可以得出以下信息:1) 表中分别给出正常人与患者各 30 组数据,每组数据各包含 7 种元素(Zn、 Cu、Fe、Ca、Mg、K、Na)在人体中的含量。通过对这些数据进行分析,可以从中找出数据差异,根据判别法确定判别标准。利用所得判别标准,与就诊人员的化验结果比较可以判别其是否患有肾炎;2) 采用某医院化验的 30 名健康人和 30 名肾炎患者体内的 7 种微量元素的含量作为基础数据,从中选取 20 名健康人和 20 名肾炎患者的数据作为样本,进行采样分析,建立判定模型,并利用剩余的 10 名健康人和 10 名患者对判定模型进行正确率检验,即可得到判定模型的正确率。3) 利。

5、用不同的判别法,用 Matlab 软件编程对数据进行处理,得到相应判别标准。将就诊人员数据与判别值比较,即可对就诊人员是否患病做出明确判断。这样就解决了第二问;4) 在第一问基础上利用 EXCEL 将各元素比重进行作图分析,即可直观地确定各种元素的权重,从而筛选出关键因素。这样就解决了第三问;- 2 -5) 在第四问中将第三问得出的关键元素对应的数据的在判别程序中保留,其余元素的数据删除。再利用 Matlab 软件对就诊人员数据进行处理,判断其是否患病。6) 在第五问中,将第二问与第四问所得结果进行直观比较,观察其差异进行详细分析。3 模型假设1) 表中所给数据全部正确;2) 除表中所给元素外。

6、,其它元素对肾炎的影响甚小;3) 外界条件对肾炎患者影响不计。4 符号说明注:约定 0 表示正常人,1 表示患者,例如 x0 表示正常人数据。A:患者矩阵 B:正常人矩阵S1:患者离差矩阵 S2:正常人离差矩阵:正常人数据代表,即均值0jx :患者数据代表,即均值1jx:组 A 代表(平均值的判别值)y :组 B 代表(平均值的判别值)y:正常人数据协方差矩阵(0):患者数据协方差矩阵(1):患者数据马氏距离定义2,DX:正常人样本马氏距离定义2,DX:Fisher 判别模型临界值ey :马氏距离判别模型判别函数()x5 模型建立该问题的关键是如何判别一个人是否患有肾炎,属于分类问题,可以采用。

7、统计方法中的判别分析方法进行处理。题目只需区分病体和健康体,所以可以采用二类群体判别的方法。可选取判别模型中的 Fisher 判别模型、马氏距离判别模型和 BP 神经网络分类模型进行研究。5.1 不等协差阵的两总体 Fisher 判别模型 23- 3 -5.1.1 基本思想从两个总体中抽取具有 p 个指标的样品观测数据,借助方差分析的思想造一个判别函数或称判别式:y = c1x1 + c2x2 + + cpxp其中系数 c1, c2,c p 确定的原则是使两组间的区别最大,而使每个组内部的离差最小。有了判别式后,对于一个新样品,将它的 p 个指标值代入判别式中求出 y 值,然后与判别临界值(或。

8、称分界点后面给出)进行比较,就可以判别它应属于哪一个总体。5.1.2 建立过程将患者与正常人数据分别表示成矩阵如下:117221130.30.7xAx 0011722003.13.7xBx 算出两组数据的代表,即平均值:(正常人均值) (患者均值)3001jijixx3011jijixx其中,j = 1,7。做新的矩阵 A1,B 1 及两组数据的离差矩阵 S1,S 2 如下:1 11272 2111130.30.230.7xxxAxxx 000112172 20003.13.23.7xxxBxxx 则有:最优判别函数的系数 C1,C 2,C 7 为下述方程组的解:即: 0122077xSCxA。

9、 0112120177xSCxA 12TTSAS1- 4 -可以写出判别函数:(S-1)127yCxCx算出两组数据平均值的判别值: 1217000AByxx则临界值为: (30)ABesytst故若将待测样本值代入 S-1 式得出相应 y 值,可得出如下判别结果:1) 时,若 ,则判别该对象患病,属于组 A;若 ,则判别该Aeyey ey对象正常,属于组 B;2) 时,若 ,则判别该对象正常,属于组 B;若 ,则判别该对ee e象患病,属于组 A.5.2 马氏距离判别模型 25.2.1 基本思想首先根据已知分类的数据,分别计算各类的中心即分组(类)的均值。判别准则是对任给的一次观测,若它与第。

10、 i 类的中心距离最近,就认为它来自第 i 类。5.2.2 建立过程设 , , , 分别为 A、B 的均值向量和协方差阵。距离定义采用马氏(1)(0)(1)(0)距离,即: 2()()1()(,) 0,1)iTiiiDXGX根据问题要求,将 G0 对应于正常人数据组 B,将 G1 对应于患者数据组 A。首先计算 X 到 A、B 两个总体的距离,分别记为 和 ,按距离最近2(,)DA2(,)XB准则判别归类,则可写成: 2222(,),(),XXBA当当待 判记 ,则有:(i)(i)(i)T1px, =1, ;p7) X - 5 -730(1)(1) (1)2() 21(0)(0) (0)()(。

11、,),TjiijjiijDXAXxB然后比较 和 的大小,按距离最近准则判别归类。2(,)2(,) 若正常人与患者数据的协方差相同,由 得到判别函数为:22(,)(,)DxAB1()(0)()Tx其中 ,判别标准是(1)(0)2x,()xB 若正常人与患者数据的协方差不同,即 ,则定义判别函数:0(1)0(1),(0)1(0)(1)(1)()T Txxxx ()()()()1 ,0,;30iniiiiTi jj i iji iSnn( )5.3 BP 神经网络分类模型 155.3.1 基本思想基于误差反向传播(Back propagation)算法的多层前馈网络(Multiple - laye。

12、r feed forward network ,简记为 BP 神经网络),是目前应用最成功和广泛的人工神经网络(如下图所示),它基于信息的正向传播和误差的反向回馈来训练整个 BP 神经网络,使得输出层误差的平方和达到最小。5.3.2 建立过程为避免变量各指标数值间差异太悬殊,而导致小数值被大数值所淹没,首先利用premnmx 函数对各样本数据进行归一化处理,归一化处理后其值分布在-1,1区间内。然后将表 B1 的正常人和患者数据作为训练样本对网络进行学习训练,网络训练结束后,输入待判样本数据,即可通过网络获得判别结果。- 6 -6 模型检验6.1 利用 Fisher 判别法的模型检验 3代入数。

13、据可得出下列结果: 12345670.0.1CC= -0.0108, = -0.1515, = -0.0812。AyByey进行判别函数的检验,检验其是否有效:计算统计量,其中,p 为向量维数,p = 7:1303071.08(.15)6ABstFyAAA给定显著水平 a=0.05,从 F 分布表中查出: 0.50.5(,)(,2)(,4)2.3pst Fa所作出的判别函数有效6.2 三种判别法的正确率检验采用某医院化验的 30 名健康人和 30 名肾炎患者体内的 7 种微量元素的含量作为基础数据,从中选取 20 名健康人和 20 名肾炎患者的数据作为样本,进行采样分析,分别建立了马氏距离判定。

14、模型、 费歇尔( Fisher)判定模型和 BP 神经网络分类模型 3 种判定模型,并利用剩余的 10 名健康人和 10 名患者对判定模型进行检验,得到 3 种判定模型的正确率如下:实际结果 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 正确率Fisher 判别程序输出结果 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 1 95%马氏距离判别程序输出结果 1 1 0 1 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 85%BP 神经网络分类模型判别结果实际输出值0.9991 0.9999 0.5070 0.915。

15、9 0.9747 0.9996 0.0761 1.0000 0.9998 0.7341 0.0001 0.0032 0.0023 0.0055 0.0009 0.0008 0.0011 0.0016 0.0021 95%- 7 -0.0118判定值 1 1 1 1 1 1 0 1 1 1 0 0 0 0 0 0 0 0 0 0注:对于 BP 模型而言,输出向量是以 0、1 为标准对样本进行分类,趋近于 0 分为“0”类,趋近于 1 的划分为“1”类由上表可见,正确率都达到 85%以上,故建立模型正确有效。7 模型求解根据已建立的模型,利用 Matlab 软件进行编程求解,对 B2 中 30 名就诊人员化验结果判断结果如下: 马氏距离判别模型判别结果:11010 10000 11000 10000 00101 00000 Fisher 判别模型判别结果:11011 101。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值