这是我们数模2006B题的整个思路,总结及改进。方便回头查看;
题目可以在全国大学生数学建模官网进行下载;
问题背景
第一问
模型建立
根据附件1,已知数据如下:
周次 | CD4 | HIV | |
---|---|---|---|
不同病人 | xxx | xxx | xxx |
1.预测继续治疗的效果
利用SPSS进行曲线拟合,因变量为周次,自变量对CD4及HIV分开讨论,对拟合的结果进行合理解释即可;
2.确定最佳治疗终止时间
关键是给出一个标准;给出的标准可以有很多合理即可;
模型求解
关键的关键就在于对数据的处理上。
1.数据预处理
首先,去除异常的数据(变化差异太大,数据不合理等等)。其次,数据很乱,不同病人检测的周次不大一致,检测的数次也不大一致,如何将这些零散不整齐的数据整合起来呢?
原始想法:
缺点:对数据进行筛选认为观测次数小于4的数据没有研究意义;HIV数值变化小,仅从CD4的角度考虑病情的影响;
优点:通过病人第0周CD4含量的不同来对不同病人进行病情期的划分,分为了前期,中期,后期,前中期,中后期5个病情期;划分的主观性很强(CD4高病情好前期,CD4低病情坏后期),但是结合实际对病人进行病情期的划分是很正确的;
(之所以利用CD4的含量来进行划分是因为,医学上有这样的做法,并且CD4的数据区分度大好划分,HIV数据的区分度小不好划分)
2.曲线拟合
(拟合和回归感觉差不多,拟合可能是方法,而回归则是模型)
利用SPSS直接将筛选的数据全部带入进行曲线拟合,根据拟合的显著性
,R方
显示,比较不同拟合的拟合效果,其中拟合效果3次拟合是最好的;但是拟合的曲线走势却与实际不符,曲线走势显示最终CD4含量越来越高,HIV近乎为0,也就是说HIV被消灭了,明显与实际不符;相反,拟合效果第二的2次拟合的结果却与实际符合的很好,最终CD4含量一直下降,HIV含量一直增加;于是我们确定最终模型为2次回归模型;(给出总体CD4的曲线拟合图2次3次)
(这里确定模型当时老师告诉我们直接将t,t2,t3利用SPSS转换->变量计算
得出来,然后进行线性回归,根据结果显示t3的系数很小近乎为0,可以说明没必要用3次拟合,2次足够了)
并对总体,前期,前中期,中期,中后期,后期的病人CD4、HIV进行了2次回归,并对最终结果给出了合理性解释,认为当出现拐点时即终止治疗;(给出拟合结果及解释)
PS:这里我导入图片后编辑博文时屏幕总是跳,发现加符号'#'就能解决问题,
也不会在文章中出现'#' 字符
记得这里的结论与答案相差较大;原因就是前面两个缺点造成的,一是数据不全,二是只根据CD4的数据得出结论;
改进想法1:不剔除观测次数小于4的数据;综合CD4及HIV两方面得出结论;
改进想法2:前面将数据全部带入回归,在相同时间的数据点取的是平均值(这是我的猜想);根据拟合图发现数据的分布有呈现周段的分布,即可以对时间进行区间划分处理,将区间的点聚合,再来回归,这与第二问的方法很类似;
第二问
模型建立
根据附件2,已知数据如下:
疗法 | 年龄 | 周次 | log(CD4+1) | |
---|---|---|---|---|
病人 | xxx | xxx | xxx | xxx |
1.评价4种疗法的优劣
关键是给出评价的标准;标准合理即可;
2.对较优的疗法预测继续治疗的效果,并确定最佳治疗终止时间
原始想法:灰色预测模型;
因为我们对数据进行聚合了得到了几个时间节点的数据,并且在CSDN上链接有介绍基本的预测模型,发现适合灰色预测模型,就选取了灰色预测模型;
模型求解
1.数据预处理
首先对数据进行统计发现数据周次的分布大致以8周为一步长分布在6个区间;中心点为0,8,16,24,32,40;对周次进行了区间划分后,又考虑到药物对不同年龄段的人作用不同,又对年龄进行了年龄段的划分;
2.数据聚合
所有数据都依据周次分布在6个区间内,如何聚合呢?
想法1:聚合在中心点,求取CD4均值;
想法2:求时间、CD4的均值,得到中心点;(这也是我们用的方法)
改进想法:可以利用k-means聚类得到中心点,甚至可以直接利用k-means聚6类得到中心点;
3.疗法优劣评价
数据整理好之后进行只根据CD4进行评价还是很容易的,我们画出不同年龄段个疗法时间节点的折线图,直观的看就是疗法4最好。可以根据均值的大小来判断,并给出疗法优劣排名(4>3>2>1);
改进想法:对不同年龄段处理完后,也应该对总体进行相同的处理,综合得出总体的结论以及各个年龄段的结论,类似第一问;
4.疗法4的疗效预测,及确定最佳终止时间
灰色预测:
这里我们根据疗法4的病人年龄段的占比选取了30-40,40-50年龄段的病人,分开直接将节点数据带入我们的matlab灰色预测代码中,得出了两条预测曲线,残差
和级比偏差
也都通过;然后综合两条预测曲线得出了结论,认为当CD4含量持续下降时终止治疗;
改进想法1:可以对总体、不同年龄段分开进行预测,最终综合得出总体的结论以及各个年龄段的结论;
改进想法2:可以尝试其他预测模型,如:第一问的二次回归,这样就无需对数据进行聚合了,只需要对划分好的数据进行曲线拟合并能判断疗法优劣即最佳终止时间;
- 其他预测模型;
第三问
模型建立
第三问其实就是在第二问的基础上添加了疗法费用这个因素进行重新评价及预测;
评价的话很好做:
层次分析,Topsis,加权Topsis;我们选用的是基于专家打分的加权Topsis模型;
预测的话:当时时间不够了,做的很差;
改进想法:
建立每种疗法的费用线性模型;根据不同收入群体设置不同阈值;确定最佳终止治疗时间;
设
疗
法
费
用
每
月
V
美
元
,
k
月
后
的
总
费
用
;
f
=
V
∗
k
病
人
的
可
支
配
金
额
为
V
0
,
即
为
阈
值
;
最
佳
终
止
时
间
k
=
V
0
/
V
;
设疗法费用每月V美元,k月后的总费用;f=V*k\\ 病人的可支配金额为V_{0},即为阈值;\\ 最佳终止时间k=V_{0}/V;
设疗法费用每月V美元,k月后的总费用;f=V∗k病人的可支配金额为V0,即为阈值;最佳终止时间k=V0/V;
建立每种疗法的疗效二次回归模型;确定最佳终止治疗时间(即为疗效的极值点);
当两个最佳终止治疗时间越靠近时,即为最好的疗法;(表明在我的消费能力内,最好的治疗效果,即疗法)
模型求解
对不同年龄段每种疗法的病人数据,利用SPSS进行二次回归,得到极值点,确定最佳终止时间;
对每种疗法的费用情况建立线性模型;考虑病人住院后无收入,由于缺少数据无法得知其可支配财富有多少,所以对不同病人的阈值情况不予以给出;
得出结论:收入较低的不足以支持到疗效极值点,那么在费用超过可支配收入即负债后,考虑终止治疗;收入较高的足以制车到疗法的效果变坏的,在疗效极值点后考虑终止;(这个很主观了,你解释合理就行。)
(题目做了过去太久了,当时数据处理都是利用SPSS、Excel进行的,处理的细节也忘了不少,就没有对改进想法进行实现了;)
到这就基本结束了,前述都是整个做题的经过以及改进的经过;能力有限,有误之处,望斧正;也可以和我交流交流,共同进步;