摘 要
本文旨在设计与实现一个基于Spark的高考志愿填报推荐系统,旨在帮助高考生根据自身成绩和兴趣,精准推荐合适的大学和专业。
系统采用大数据处理框架Spark,结合机器学习算法,实现了对高考数据的深度挖掘和分析,为考生提供科学、有效的志愿填报建议。系统捕捉考生个人特征、成绩、兴趣与大学专业之间的复杂关系,通过Spark的数据处理功能,对原始高考数据进行预处理。包括数据的清洗、去重、填补缺失值等操作,确保数据的质量和准确性。同时,通过数据转换,将原始数据转换成适合模型训练的格式,为后续的模型训练提供数据支持。通过特征工程的特征选择和参数调优,将高考数据中的非数值型数据进行转换,优化模型的性能,提高了推荐的准确性,以适应模型训练的需要。训练出的模型能够根据考生信息,预测其适合报考的大学和专业。
最终通过Web界面展示推荐结果。界面设计简洁清晰,易于操作。考生可以通过输入自己的高考成绩、兴趣等信息,系统根据训练好的模型,为其推荐。
关键词:Spark;高考志愿填报;推荐系统
ABSTRACT
The purpose of this paper is to design and implement a Spark-based college entrance examination voluntary application recommendation system, which aims to help college entrance examination candidates accurately recommend suitable universities and majors according to their own grades and interests.
The system uses the big data processing framework Spark, combined with machine learning algorithms, to realize the in-depth mining and analysis of college entrance examination data, and provide candidates with scientific and effective suggestions for voluntary filling. The system captures the complex relationship between candidates' personal characteristics, grades, interests and university majors, and preprocesses the original college entrance examination data through Spark's data processing function. It includes data cleaning, deduplication, filling in missing values and other operations to ensure the quality and accuracy of data. At the same time, through data transformation, the original data is converted into a format suitable for model training, providing data support for subsequent model training. Through feature selection and parameter tuning of feature engineering, the non-numerical data in the college entrance examination data are transformed to optimize the performance of the model and improve the accuracy of recommendations to meet the needs of model training. The trained model can predict the universities and majors that candidates are suitable for applying for based on their information.
Finally, the recommendation results are displayed through the web interface. The interface design is simple and clear, and it is easy to operate. Candidates can input their college entrance examination scores, interests and other information, and the system will recommend them according to the trained model.
Key words:Spark;College Entrance Examination Volume Filling;Referral system
1.1 研究背景
高考是中国高中毕业生升入大学的主要途径,考试成绩决定了学生的录取排名和学校专业的选择。由于高校众多、专业繁杂,学生和家长在填报志愿时常面临困扰和选择困难。为了给考生和家长提供平台可以让其客观的根据自身情况填报以及当下发展情况,进行推荐填报。而大多数考生都是找志愿填报老师,完全听取其意见,自己没有相关了解以及个人兴趣。针对此问题,设计本系统可以更好的注重于个人兴趣以及院校水平、专业前景客观推荐。本文将推荐系统与大数据处理框架Spark相结合,帮助考生解决高考志愿填报环节的志愿选择问题。
1.2 国内外现状
1.2.1 国外研究现状
国外的研究主要关注学生个性化需求和多样化的招生制度。一些国际知名企业,如Google、Facebook等,已经开发出了一些先进的大规模推荐系统,涵盖了视频推荐、广告推荐等多个领域。这些推荐系统通常基于分布式计算框架,能够高效地处理大规模数据,提供更加准确和个性化的推荐建议[1]。从大量信息中挖掘出有用信息,为用户进行精准推荐,有效解决了个人用户的“信息过载”问题。同时,推荐系统在消费领域发挥着不可或缺的作用,推动了企业进行数据营销,给企业和社会带来了较高的经济效益[2]。
1.2.2 国内研究现状
目前多家互联网公司已经推出了高考志愿填报模拟系统,比如高考网,中国教育在线—高考频道等。考生可以输入自己的高考分数、所在省份,系统会搜索近几年各院校各专业在该省历年录取分数线与本省当年批次分数线差值低于考生这一年与本省批次线差值的学校和专业[3]。
随着高考改革的不断深入,越来越多的学者和研究机构开始关注高考志愿填报推荐系统的研究和开发。基于Spark的高考志愿填报推荐系统作为一种分布式计算框架,能够高效地处理大规模的高考数据,提供更加准确和个性化的推荐建议。高校和科研机构已经开始进行相关研究和实验,取得了一些初步的成果。同时,一些互联网企业也纷纷涉足高考志愿填报领域,推出了一系列基于大数据分析的志愿填报辅助工具和平台[4]。
。
1.3 主要研究内容
将推荐系统与大数据处理框架Spark相结合,帮助考生志愿选择问题。设计高考志愿推荐的Web前端界面。其中包括用户注册界面、用户登录界面、志愿推荐结果展示界面以及相关高考信息(高校信息与专业信息)的浏览界面。并设计高考志愿场景下的志愿推荐引擎。首先,通过阅读大量高考志愿填报文献,选取合适的用户属性,计算相似性,建立相似矩阵,寻找相似用户;其次,分析几种最常见的推荐算法,结合高考志愿填报的真实场景选择协同过滤算法作为本系统的推荐算法;最后通过Spark计算框架的并行化计算方式生成最终的推荐列表[5]。
1.4 论文框架结构
本文将分为七个章节介绍系统的开发设计过程,全面的向读者介绍从建立课题到理论分析再到完成实现所调查的市场现状,使用的开发技术,创建的搭建环境,制作的编程代码等,使读者能够通过本论文对所开发的系统有所了解。
第一章,绪论。在绪论章节中,将介绍研究背景、国内外现状、主要研究内容以及论文的框架结构。
第二章,相关开发技术与理论。在相关开发技术与理论章节中,将介绍项目所涉及到的相关开发技术与理论。
第三章,系统分析。在系统分析章节中,对本次开发的软件系统从不同方面、不同角度进行可行性分析、功能分析、用例图建模。
第四章,系统设计。在系统设计章节中,对系统的功能模块、概念模型、数据库等进行设计。
第五章,系统实现。在系统实现章节中,对系统的核心功能进行截图展示介绍。
第六章,系统测试。在系统测试章节中,将介绍系统的测试目的、测试方法、测试用例与测试总结。
第七章,总结与展望。在总结与展望章节中,将对系统在开发过程中的感想以及所遇到的问题进行总结。