项目背景:在当今快节奏的生活中,人们渴望轻松规划个性化旅行。随着济南旅游业的蓬勃发展,现有的推荐系统已难以满足游客对个性化、精细化旅游体验的需求,亟待进一步优化升级。同时我们看到agent智能个性化与精细化城市旅行推荐系统的可行性。本系统旨在为用户提供高效、精准的济南旅行线路,助力用户快速规划济南市理想旅程,享受无忧旅行体验。
2025.3.18日晚我们团队开展会议填写任务书,确定我们项目《TripGenie:畅游济南旅行规划助手》的任务要点为:
1. 用户需求获取
2. 个性化一站式行程规划
3. 信息获取与存储
4. 深化济南文化特色融入
5. 景点与活动推荐
6. 行程优化与贴心服务
7. 智能交互与地图展示
8. 行程导出与用户反馈
9. 数据集构造
具体内容详见任务书。在计划书中我们也确定了我们的分工内容。
在爬虫+数据预处理任务中,我们选择了大众点评、携程等平台作为主要的数据爬取目标。大众点评以用户对各类商家(如餐厅、酒店、景点等)的评价和评分为主,数据结构较为丰富;携程则侧重于旅游产品的预订信息,如酒店价格等。
由于不同平台的数据结构和内容存在差异,为了便于后续的统一分析,我们需要对爬取的数据进行预处理。预处理的主要步骤包括:
数据清洗:去除无效数据、重复数据以及格式错误的数据。
数据转换:将不同平台的数据转换为统一的格式。
数据整合:将不同平台的相同类型数据携程的趵突泉数据和百度地图的趵突泉数据整合到一起,由于二者名称有所不同,所以需要转换后进行整合。
后续我准备继续爬取一些数据并进行预处理操作,我也准备阅读一些代码,为后续系统搭建进行一些知识储备。