毕业设计
开题报告
题 目: | 基于Hadoop的飞机航班预测系统设计与实现 |
院 系: | 大数据与人工智能学院 |
专 业: | 数据科学与大数据技术 |
班 级: | 数科201班 |
学 号: | 202001074140 |
学生姓名: | 张健 |
指导教师: | 马义想 |
郑州经贸学院毕业设计、开题报告
题 目 | 基于Hadoop+Hive的机票价格预测分析与可视化 | ||||||
姓名 | 张健 | 院系 | 大数据与人工智能学院 | 专业班级 | 数科201 | 学号 | 202001074140 |
1.选题背景和意义 (1)选题背景 在旅行规划中,机票价格一直是旅客关注的重点。机票价格的波动不仅受季节、航线、航空公司等因素的影响,还受到市场供求关系、经济形势等因素的影响。因此,通过对机票价格进行预测分析,可以帮助旅客选择更合适的出行时间和机票购买策略,从而节省旅行成本。 (2)意义 提高乘客购票决策:基于Hadoop的飞机票价格预测能够提供乘客准确的价格预测信息,帮助他们选择合适的购票时间和最优的价格,从而节省成本。 改善航空公司运营管理:航空公司可以准确预测票价趋势和需求变化,从而制定更具竞争力和市场响应性的票价策略。这有助于提高运营效率、增加收益和优化航线安排。 实现可持续发展:航空业是全球排放最高的行业之一。通过预测飞机票价格,并能够更好地安排航班和座位利用率,航空公司可以减少空座位和航班的浪费,从而降低碳排放和资源浪费,实现可持续发展。 推动大数据技术应用:基于Hadoop+Hive的机票价格预测分析与可视化,可以推动大数据技术在航空业的应用和发展。这对于促进航空公司数字化转型,提升数据分析和预测能力具有重要意义。 通过基于Hadoop+Hive的机票价格预测分析与可视化,可以为乘客提供更好的购票体验,为航空公司提供决策支持,促进航空业的可持续发展,并推动大数据技术在航空业的应用。 | |||||||
2.本选题在国内外的研究状况及发展趋势 (1)国内外的发展状况 在国内,随着大数据技术的逐渐普及和应用,基于Hadoop+Hive的机票价格预测分析与可视化的研究日益受到重视。一些研究者通过收集和处理大规模的机票价格数据,利用Hadoop+Hive进行机票价格分析和预测。例如,可以通过Hive进行机票价格数据的清洗、聚合和转换,再利用Hadoop进行机票价格模型的建立和预测。同时,也有研究者将预测结果进行可视化展示,使用图表、地图等方式呈现机票价格的变化趋势和规律。 在国外,基于Hadoop+Hive的机票价格预测分析与可视化的研究也取得了一定的进展。一些研究机构和航空公司利用大数据技术进行机票价格分析和预测,并取得了一些重要的研究成果。例如,他们通过收集和处理全球范围内的机票价格数据,利用Hadoop+Hive进行机票价格模型的建立和预测分析。同时,也在可视化方面进行了一些探索,将预测结果以图表、地图等形式展示。 (2)发展趋势 未来,基于Hadoop+Hive的机票价格预测分析与可视化的研究将继续发展。随着大数据技术的不断演进和应用,机票价格数据的规模和复杂性将进一步增加,需要更加强大和高效的数据处理和分析能力。因此,研究者将继续深化对Hadoop+Hive的应用,探索更加有效的机票价格分析和预测方法。同时,也将更加注重可视化技术的应用,提供更直观和易于理解的预测结果展示方式。 (3)参考文献 [1]卢敏,贾玉璇.基于多任务学习的机票价格预测模型[J].计算机工程与设计,2023 [2]王双,徐瑶,韩建云等.基于机器学习算法的机票价格预测研究[J].民航学报,2022. [3]姚悦.基于多预测模型的机票价格预测[D].东南大学,2021. [4]单文煜,吴垠,陈鹏.基于机器学习的机票价格预测研究[J].现代计算机,2020. [5]王楠,张显,李冬梅.基于大数据机器学习的航班价格预测研究[J].黑龙江大学自然科学学报,2019. [6]郭才森.近十年国内机票价格市场化改革进程分析与展望[J].民航管理,2021,(04):57-62. [7]陈建蓉.基于统计分析的航空货运价格预测[D].电子科技大学,2020. [8]鞠铁鑫.基于统计分析的航班价格变化差异性问题研究[D].黑龙江大学,2018. [9]Huang T ,Chen C ,Schwartz Z .Do I book at exactly the right time? Airfare forecast accuracy across three price-prediction platforms[J].Journal of Revenue and Pricing Management,2019,18(4):281-290. [10]Huang F ,Huang H .Event ticket price prediction with deep neural network on spatial-temporal sparse data[C]//[出版者不详],2020: | |||||||
3.主要设计内容 本项目主要包括以下几个部分: 数据收集和清洗: 从各个航空公司和第三方机票平台收集大规模的机票价格数据,包括航班信息、日期、价格等。对收集到的数据进行清洗,处理缺失值、异常值和重复值等,确保数据的准确性和完整性。 数据存储和管理: 利用Hadoop的分布式文件系统(HDFS)存储机票价格数据,并使用Hive进行数据管理和查询。将机票价格数据通过Hive表的方式进行组织和存储,方便后续的数据分析和预测。 数据分析和建模: 使用Hive进行数据分析,通过SQL语言对机票价格数据进行聚合、统计和计算,提取有用的特征。基于机票价格的历史数据,可以使用统计模型、时间序列模型或机器学习算法构建机票价格预测模型。选择合适的预测模型,根据历史数据进行训练和验证,得到预测模型的参数和准确度指标。 价格预测和可视化: 利用构建好的机票价格预测模型对未来时间段的机票价格进行预测。根据预测结果,可以将机票价格的变化趋势以可视化的方式进行展示,例如折线图、柱状图、地图等。通过可视化图表,使预测结果更加直观和易于理解,帮助旅客了解机票价格的变化规律,做出更好的出行决策。 用户界面设计:通过echarts等方式,将预测结果以图表、列表等形式直观地展现给用户,方便用户了解和比较不同的飞机票价格。 |
核心算法代码分享如下:
--hive建表
DROP TABLE IF EXISTS `ods_flight`;
CREATE external TABLE `ods_flight` (
`start_city` string COMMENT '出发城市',
`end_city` string COMMENT '到达城市',
`stime` string COMMENT '出发日期',
`airline_name` string COMMENT '航班名称',
`flight_info` string COMMENT '飞机详细信息',
`flight_type1` string COMMENT '飞机型号',
`flight_type2` string COMMENT '飞机系列',
`setup_time` string COMMENT '出发时间',
`arr_time` string COMMENT '到达时间',
`start_airport` string COMMENT '起飞机场和航站楼',
`arr_airport` string COMMENT '到达机场和航站楼',
`ontime_rate` bigint COMMENT '准点率',
`flight_total_time` string COMMENT '飞行时间字符串',
`price` bigint COMMENT '价格',
`price_desc` string COMMENT '优惠折扣力度',
`flight_company` string COMMENT '航空公司',
`flight_type3` string COMMENT '飞行性质',
`setup_time_math` double COMMENT '出发时间_数字辅助',
`arr_time_math` double COMMENT '到达时间_数字辅助',
`arr_time2` string COMMENT '第几天到达',
`start_airport_simple` string COMMENT '起飞机场',
`arr_airport_simple` string COMMENT '到达机场',
`flight_total_time_math` bigint COMMENT '飞行时长_数字辅助',
`price_desc_math` double COMMENT '优惠折扣力度_数字辅助'
)
row format delimited fields terminated by ','
location '/flink_fliggy_flight/flight';
select * from ods_flight limit 1;
select count(1) from ods_flight ;