像许多奢侈品一样,帆船随着年龄的增长和市场条件的变化而价值不同。所附的“2023_MCM_Problem_Y_ Boats.xlsx” 文件包括大约3500艘帆船的数据,这些帆船的长度从36英尺到56英尺,广告显示将于2020年12月在欧洲、加勒比海和美国销售。一位划船爱好者向COMAP提供了这些数据。像大多数真实世界的数据集一样,它可能会有缺失数据或其他问题,需要在分析之前进行一些数据清理。
Excel文件包括两个选项卡,一个用于单体帆船,一个用于双体船。在每个选项卡中,各列都标有品牌、型号、长度(英尺)、地理区域、国家/地区/州、标价(美元)和年份(制造年份)。
对于给定的品牌、型号和年份,除了所提供的Excel文件之外,还有许多其他来源可以提供特定帆船特征的详细描述。您可以用您选择的任何附加数据来补充所提供的数据集;但是,您必须在建模中包括“2023_MCM_Problem_Y_Boats.xlsx”中的数据。确保完全识别和记录所使用的任何补充数据的来源。
Make | Variant | Length (ft) | Geographic Region | Country/Region/State | Listing Price (USD) | Year |
---|---|---|---|---|---|---|
Alubat | Ovni 395 | 41 | Europe | France | $267,233 | 2005 |
Bavaria | 38 Cruiser | 38 | Europe | Croatia | $75,178 | 2005 |
Bavaria | 38 Cruiser | 38 | Europe | Croatia | $66,825 | 2005 |
Bavaria | 38 Cruiser | 38 | Europe | Croatia | $54,661 | 2005 |
Bavaria | 38 Cruiser | 38 | Europe | Croatia | $53,447 | 2005 |
Make | Variant | Length (ft) | Geographic Region | Country/Region/State | Listing Price (USD) | Year |
---|---|---|---|---|---|---|
Lagoon | 380 | 38 | Caribbean | Martinique | $204,921 | 2005 |
Lagoon | 380 | 38 | Caribbean | Guadeloupe | $200,071 | 2005 |
Lagoon | 380 | 38 | USA | Florida | $219,000 | 2005 |
Fountaine Pajot | Lavezzi 40 | 39 | Caribbean | Mexico | $210,000 | 2005 |
Leopard | 40 | 39 | Caribbean | Panama | $200,000 | 2005 |
帆船经常通过经纪人出售。为了更好地了解帆船市场,中国香港的一家帆船经纪人委托您的团队准备一份关于二手帆船定价的报告。经纪人希望您:
- 开发一个数学模型,解释所提供的电子表格中每艘帆船的标价。包括任何你认为有用的预测。你可以利用其他资源来了解一艘特定帆船的其他特征(如横梁、吃水深度、排水量、索具、帆面积、船体材料、发动机时间、睡眠容量、净空高度、电子设备等)。)以及按年份和地区分列的经济数据。识别并描述所有使用的数据来源。包括讨论你对每种帆船价格的估计的精确度。
!再进行所有操作之前,请注意进行数据清洗预处理等操作
本小题为预测类问题,通过一些船的基本特征,来预测船的价格,比较实际价格与预测价格之间的差距来衡量精确度Step1:寻找额外的信息,使用相关系数(皮尔森、斯皮尔曼)确定要使用的信息,使用哪些信息来估算船舶的价格。(或者考虑浓缩信息,TOPSIS熵权法、PCA主成分分析,如果将信息进行了浓缩,要想好如何解释浓缩后的结果)还可以直接使用多元函数回归。
Step2:确定关系可以使用函数(使用函数建立关系可以参考相关性分析的结果)或者神经网络建立(BP、LSTM)(注⚠️:使用神经网络不利于进行敏感性分析)或者使用集成学习来预测价格建立映射(随机森林、SVM等方法集成,更推荐这种方法)
Step3:精确度可以考虑使用RMSE衡量,后面敏感性分析可以对各个参数不同权值进行不同组合并分析。
- 用你的模型解释地区对标价的影响,如果有的话。讨论区域效应是否在所有不同的帆船上都是一致的。说明任何注意到的区域效应的实际意义和统计意义。
Step1:进行相关性分析(可选,非必要)
Step2:搜索一些气候因素、地形因素、地缘因素等相关信息,探究他们与标价的关系(注意分类探究),探究后比较不同帆船之间的结果,解释得到实际意义。可以用
Step3:展示数据规律 体现统计意义
- 讨论您对给定地理区域的建模如何在香港(SAR)市场中发挥作用。从提供的电子表格中选择信息丰富的帆船子集,分为单体船和双体船。从香港(特区)市场查找该子集的可比列表价格数据。模拟香港(SAR)对您小组中的每艘帆船价格的区域影响(如果有)。双体船和单体船的效果是一样的吗?
筛选出HK的数据,看是否符合我们先前探索出的规律
- 确定并讨论你的团队从数据中得出的任何其他有趣且有价值的推论或结论。
- 为香港(特区)的帆船经纪人准备一份一到两页的报告。包括一些精心挑选的图表,以帮助经纪人理解你的结论。
总页数不超过25页的PDF解决方案应包括:
-
- 一页的总结表,清楚地描述你解决问题的方法,以及你在问题背景下的分析得出的最重要的结论。
-
- 目录。
-
- 您的完整解决方案。
-
- 一到两页的报告给经纪人。
-
- 参考列表。
注意:MCM竞赛有25页的限制。你提交的所有内容都在25页的限制之内(摘要表、目录、报告、给经纪人的一到两页的报告、参考列表和任何附录)。你必须为你的想法、数据、图像和报告中使用的任何其他材料引用来源。
附件
数据文件
2023_MCM_Problem_Y_Boats.xlsx
-
单体帆船
-
双体船
数据文件条目描述
品牌:船只制造商的名称。
变体:识别船只特定型号的名称。
长度(ft):船的长度,以英尺为单位。
地理区域:船所在的地理区域(加勒比海、欧洲、美国)。
国家/地区/州:船只所在的具体国家/地区/州。挂牌价格(美元):购买船只的广告价格,以美元计。年份:船只制造的年份。
词汇表
船宽:船最宽处的宽度。
经纪人:作为销售或购买财产的代表为卖方和/或买方服务的专家。对于这个问题,房产是一艘帆船。
双体船:一种多体船只,有两个大小相等的平行船体。
排水量:一艘船排出的水的重量。
吃水深度:使船漂浮而不触底所需的最小水深。
发动机小时数:新船发动机运行的小时数。
净空高度:机舱内可站立的高度。
船体:船或其它船只的主体或外壳,包括底部、侧面和甲板。
船体材料:制造船体的材料。使用的材料包括玻璃纤维、钢、木材和复合材料。
挂牌价格:卖方要求的价格。这条船可能会以不同的价格出售。
制造商:帆船的制造商。
单体帆船:只有一个船体的帆船,通常以一个沉重的龙骨(中心叶片)为中心。
索具:由绳索、缆绳和滑轮组成的系统,用于支撑和控制船帆、操舵和其他系统。
帆面积:船帆完全升起时的总表面积。
变体:识别特定型号帆船的名称。比如《太阳奥德赛54 DS》。