2023 MCM
Problem Y: Understanding Used Sailboat Prices
2023年MCM问题Y:了解二手帆船的价格
和许多奢侈品一样,帆船的价值会随着老化和市场条件的变化而变化。附件中所附的“2023_MCM_Problem_Y_Boats.xlsx”文件包括了2020年12月在欧洲、加勒比海和美国登广告出售的大约3500艘36至56英尺长的帆船的数据。
一、题目评价
典型的数据分析题目,考察预测模型,有现成数据,题目里多次提示可以自行增添相关数据,建议补充一些数据来辅助建模与分析。相对来说,本题难度不大,适合新手小白快速上手。
二、解题思路
1.数据清洗
1. 数据读取与观察:
由于原始excel编码为ansi,直接使用python读取会报错,需要用记事本打开转换编码格式为utf-8,转存为csv格式,再使用python的pandas包读取。
缺失值查看:
import pandas as pd
df1=pd.read_csv('Monohulled Sailboats.csv')
df2=pd.read_csv('Catamarans.csv')
print(df1.isnull().sum())
print(df2.isnull().sum())
输出结果:
1
2
由此可见,sheet1“Monohulled Sailboats”中有3个缺失值,而sheet2“Catamarans”中无缺失值。通过excel的筛选,可以快速定位到缺失值:
Make | Variant | Length (ft) |
Geographic Region | Country/Region/State | Listing Price (USD) | Year |
Beneteau | Oceanis 54 | 54 | USA | $479,805 | 2013 | |
Delphia | 46 cc | 46 | Europe | $314,606 | 2013 | |
Bavaria | Cruiser 46 | 46 | Europe | $201,640 | 2014 |
接着我们通过绘制箱线图来查看数据的分布情况:
Monohulled Sailboats
Catamarans
M类船的价格分布在200,000左右,C类船的价格分布在500,000左右
都存在个别偏离总体较明显的异常值ÿ