一、参与项目启动与任务分工
在项目初期,我参加了团队召开的多次项目启动与需求分析会议,团队成员共同梳理了项目目标、技术路线和开发计划。我在会上结合自己对智能旅行助手的理解,提出了系统需要具备的几个核心能力,包括个性化推荐、一站式信息整合、空间优化的行程规划等。同时,针对项目整体工作量与时间进度,我协助团队完成了详细的任务分工与阶段性目标的制定。
二、POI数据集查找与调研
我参与了POI数据集的查找任务。在初期阶段,我主要在多个知名开放平台(如开源POI数据集网站等)寻找合适的POI数据集。期间,我曾发现过几个相对符合要求的数据集,这些数据集涵盖了济南部分景点、酒店、交通枢纽等信息。
但在对数据集进行进一步的评估时,发现这些数据集虽然在文本数据(如景点名称、位置、简介、评分等)方面比较齐全,但缺少了关键的“高清图片”字段。因此,讨论决定放弃使用该数据集,转向自主爬取的方式。
三、自主爬取POI数据
为提高工作效率,我综合使用了八爪鱼采集器等可视化爬取工具以及Python自主编写的爬虫脚本,分别针对不同平台的特点进行数据抓取。
在使用八爪鱼采集器时,我根据各旅游平台(如携程、马蜂窝、大众点评等)的网页结构,设计了多个可视化采集规则,成功批量获取了包括济南景点、酒店、美食等POI的基础信息,如名称、评分、地址、电话、营业时间、门票价格等。同时,为补充八爪鱼在部分复杂页面下的数据采集不足,我也自主编写了多组Python爬虫,结合requests、BeautifulSoup、Selenium等库,完成了对部分特殊网页的深度数据抓取,确保POI信息尽可能丰富、完整。
在数据获取完成后,我对初步采集到的多源POI数据进行了细致的后续处理,包括数据清洗、字段标准化、冗余数据去除、多平台数据的关联与整合。