摘 要
时代在进步,科技在进步,互联网改变了世界,在互联网时代,各行各业的人们都在寻求增长点,人们的日常生活越来越离不开互联网。以旅游信息为例,线下大量的各种旅游信息基本只会出现在旅游会上,但是现如今,人们越来越重视时间成本,所以越来越多的年轻人在网上查找自己想要查找的旅游就业信息。然而,在互联网信息和海量数据源混合的情况下,如何快速精确的找到自己想要的数据是一个值得探讨的问题。
本系统主要针对解决获取旅游信息滞后、参加线下旅行社和人工检索时间成本高等问题,运用网络爬虫信息技术设计思想,实现了一个基于Python的旅游信息推荐系统。本系统以Python计算机设计语言为基础,使用 requests对去哪儿旅游信息源进行抓取,针对网页信息编写抽取规则,对旅游信息进行必要的过滤和提取,使用MySql对旅游信息进行数据存储。然后使用 Python 开源web框架 Django进行系统搭建,基于旅游信息完成对用户的旅游信息推荐,完成整个爬取以及数据检索到成功进行旅游推荐的网页端操作展示。
根据对系统的需求分析,此系统需包含供用户使用的web端和供管理员管理的web端。针对不同的需求,分模块设计出相应的功能。本模块的任务是根据需求分析设计出具体的系统功能框架
1、景点搜索界面
2、景点详情页
3、首页
4、类似景点推荐和评论评分页面
5、我的收藏
6、后台数据管理页面
7、数据采集页面
8、推荐模块设计与实现
系统为用户提供四种推荐,分别为热门推荐——根据爬取的评分高低进行排序推荐,随机推荐——随机选取景点进行推荐,猜你喜欢——基于深度学习的推荐,类似推荐——基于地点的推荐。。推荐模块结构图如图4-8所示。
图 推荐模块结构图
9、 热门推荐模块设计与实现
热门推荐是为了给用户提供评分最高的景点,也就是大多数人所喜欢的景点。在热门推荐模块下,评分就是通过网络爬虫爬取去哪儿网的多项数据经过处理得到的。因为爬取的多项数据均可反应景点的热门程度,所以单看一项数据来判断景点的热门程度是不合理的。本文的评分是将爬取的景点点评数量、驴友去过比例和景点星级数据按比例所综合得出的。由于各项数据的数值相差过大,直接相加会放大某项因素对最终评分的影响,所以要对数据进行相关处理,得到在一个区间的数值。经过观察,多数热门景点点评数量在一万左右,驴友去过比例在0%-100%之间,景点星级为0-5星,所以将点评数量缩小100倍,驴友去过比例去掉%,景点星级扩大20倍,可以将所有数据限定在0-100之间。之后对其相加,得到景点综合评分。
图 热门推荐流程图