课程编号: 400802020 课程名称: 数据分析与预测课程设计
考试形式:大作业设计答辩(非笔试)
一、设计考核说明:
运用所学的机器学习知识,基于Python或R或C编程环境,根据下面给出的要求,选择相关分析设计内容,完成一个数据分析与预测案例实现,最终提交设计文档。提交的设计文档内容必须包括:数据预处理、模型构建、代码实现、结果分析。学生必须提前完成案例的实现与设计文档的撰写,并参加上机演示答辩。没能完成案例实现与设计文档撰写的同学,取消答辩资格。本次设计答辩考核作为该课程的考试考核。
二、具体要求:
- 学生在选题范围中选择设计题目(学生亦可自选择相关设计题目,但要求难度相当)。
- 学生必须单独完成设计工作。
- 要求按照数据分析与预测设计规范来撰写设计文档。文档每人一份。
- 设计文档要求内容完整,结构清晰,最终提交电子文档。电子文档命名参照以下规范:例如:【B08082021**张三数据挖掘设计文档】,要求保存为word 或wps文档。
三、设计题目选题表(数据以电子档给出)
题目1:心脏病的预测
心脏病是人类健康的头号杀手,每年全世界有1/3的死亡人口是由心脏病引起的,在我国每年有几十万人死于心脏病,通过体检数据建立一套心脏病预测系统是非常实用的。
本题研究的数据是真实的心脏病患者体检数据,为了能更好的预测,请分析数据(按照heart-disease.names中说明,用76个特征中的14个指定特征构建模型。以cleveland.data作为训练数据,以new.data作为测试数据),针对预测的目标及要求,构建合适的模型。
请根据提供的数据实现以下目标:
(1) 挑出指定特征的数据存储为新的文件(训练数据和测试数据都需处理);
(2) 利用(1)的数据构建心脏病预测模型;
(3) 该模型进行预测时准确率能达到75%以上。
题目2:雾霾天气成因分析
近几年国家和人民非常关心的一个话题是环境,大家都意识到环境的重要性,如今天气预报都包含了空气质量的信息。雾霾不光影响了人们的出行和娱乐,对人们的健康也有很大危害。如果人们能通过技术的手段找出引发雾霾天气的真凶,这将对治理雾霾有特别大的帮助。
国家气象局每天都会公布当日的天气状况,每个地区的各种污染物的指标,只需找出哪些污染物指标跟雾霾天气关联度最大,就可以找到引发雾霾天气的原因,从而可以有针对地治理。
本题要求如下:
(1) 采集某城市某年全年的空气指标;
(2) 依据采集数据挑选特征,构建模型挑选出影响雾霾成因的关键因素。
题目3: 混凝土的强度预测
在工程领域中,对建筑材料的性能有精确的估计至关重要。这些估计是必需的,以便制定安全准则来管理用于楼宇、桥梁和道路建设中的材料。
估计混泥土的强度是一个特别有趣的挑战。尽管混泥土几乎要用于每一个建设项目,但由于它各种成分的使用以复杂的方式相互作用,所以它的性能变化很大。因此,很难精确地预测它最终产品的强度。
本题给定一份材料成分清单,要求:
(1)挑选合适的模型预测混泥土强度;
(2)考虑预测值与真实值的相关性,评估模型性能并进行优化。
题目4:口红销量预测
美容界曾有一个著名的调查:“假如你只能拥有一个化妆品,你想要的的是什么产品?”95%以上的亚洲女性都选择了口红。为了让商家生产出更符合消费者的口红,提高其销售量,本题提供在京东网站上爬取的1600多条销售数据。在这诸多影响口红销量的影响因素中,分析哪些因素对口红销量至关重要,根据这些因素预测商家的销售量。
本题要求如下:
- 对提供的数据进行数据预处理(数据清洗,处理缺失值等等)
- 挑选合适的预测模型来预测商家的口红销售量。
题目5:钻石价格预测
年轻人在“钻石恒久远,一颗永流传”的广告营销下,在选择结婚戒指的时候,则不由自主的考虑钻石戒指。有需求就会有市场,于是钻石的价格也水涨船高。
- 在R中的ggplot2包中提取数据diamonds;
- 分别探讨克拉、颜色、切割等属性跟价格的关系
- 讨论多个属性跟价格的关系
- 预测carat为1.01,cut为ideal,color为E,clarity为VS2的钻石的价格,置信区间为0.95.
四、考核成绩构成
设计文档撰写:30%(考核点:问题需求的分析、文档撰写的结构层次、原理知识阐述、实验过程描述等)
上机演示答辩:70%(考核点:功能演示、原理分析、问题回答)
大作业文档结构参考
数据分析与预测课程设计
题目:****************
学号:****************
姓名:****************
一、任务背景
二、数据分析与预测目标
三、数据预处理及分析
四、模型构建与评价
五、总结