川渝地区景点推荐系统

随着社会经济的高速发展,人们生活水平不断提高,开始注重追求丰富的精神生活,促进了旅游行业的快速发展。面对多样化的旅游出行需求,出行用户很难在庞大的资源数据中找到相关信息。运用爬虫对数据进行爬取,大数据的基于内容推荐算法,推荐系统冷启动算法两大算法,对相似类型景点的信息进行整理归纳,精准推荐个体定制化旅游景点,为用户提供智能化的出行保障,是笔者提出的旅游景点信息化方案。

推荐算法的优劣直接影响到用户的体验,不同的推荐算法和特征处理方式,在不同的应用场景下的推荐效果不同,如何在爬取的景点信息中提取有效的特征,获取最优的景点推荐算法推荐算法,为用户推荐感兴趣的内容。本文在分析了川渝景点推荐系统发展现状及其关键技术基础上,分别以基于内容进行景点推荐系统的研究。

关键词旅游景点;爬虫;基于内容推荐算法;推荐系统冷启动;个性推荐

Absrtact

With the rapid development of social economy and the continuous improvement of people's living standards, they begin to pay attention to the pursuit of rich spiritual life, which promotes the rapid development of tourism industry. In the face of diversified travel needs, it is difficult for travel users to find relevant information in the huge resource data. Crawler is used to crawl data, content-based recommendation algorithm of big data and cold start algorithm of recommendation system are two major algorithms to sort out and summarize the information of similar types of scenic spots, accurately recommend individual customized scenic spots, and provide intelligent travel guarantee for users. This is the tourism scenic spot informatization scheme proposed by the author.

The merits and disadvantages of recommendation algorithms directly affect the user experience. Different recommendation algorithms and feature processing methods have different recommendation effects in different application scenarios. How to extract effective features from the scenic spot information crawled to obtain the optimal scenic spot recommendation algorithm and recommend the content of interest to users? Based on the analysis of the development status of Sichuan and Chongqing scenic spot recommendation system and its key technologies, this paper studies the scenic spot recommendation system based on content.

Key words: tourist attractions; A reptile; Content-based recommendation algorithm; Recommended system cold start; Personality recommendation

1.世界旅游业的快速发展已经成为现代世界经济的一大特征。在过去的16年里,全球旅游业年平均增长率高达9%,成为世界第一大产业。根据世界旅游组织公布的数字,2002年全球旅游人次超过7亿,较2001年增长了3.1%。在各种旅游形式中,休闲度假开始成为旅游的一种主要形式,相关的旅游产品已逐渐成为当今世界旅游产业中档次最高的产品,并引领着当今世界旅游业的发展。

   2.在今后相当长的一段时期内,世界性的旅游消费需求将保持持续增长的势头。到2020年,全球仅国际旅游人数将达到16亿人次,国际旅游收入将达2万亿美元。21世纪既是旅游业发展的"黄金时代",更是"亚太世纪"。

      1. 我国旅游业发展的方向和趋势

1.我国旅游业发展迅速,现在已成为中国第三产业中最具活力的新兴产业、国民经济新的增长点,在第三产业优先发展序列中位居第一,并已被各地列为当地经济发展的支柱行业、先导产业和龙头行业。

   2.中国国内旅游现已成为世界上数量最大、增速最快、潜力最强的旅游市场。现阶段我国国民旅游活动的特点是短程、短时、少花费、周末休闲;旅游需求是休闲、观光、游览和度假为主;在游程及空间上,旅游空间集中在以中心城市或城市的周边地区。我国旅游需求的地域空间表现出以大城市或著名景区为中心的圈层结构。在旅游发展形式上,近距离的康体休闲型的游憩活动在都市居民的旅游结构中的地位越来越重要,日常游憩与近程旅游的规和潜力十分可观;观光旅游在近期内仍是旅游的主体,文化和生态旅游是近阶段热点;但度假旅游必将蓬勃发展,个性化旅游需求也必然会推动旅游业走向主题化。

中国旅游景点,是指位于中国的旅游风景名胜区。截至2018年12月,中国共有景区景点3万多个(其中A级景区10300多个,包括5A级259个、4A级3034个),红色旅游经典景区300个,国家级旅游度假区26个,旅游休闲示范城市10个,国家生态旅游示范区110个,在建自驾车房车营地900多个,全国通用航空旅游示范基地16个。

    1.   研究现状

从世界范围内看,旅游业经历了几次大变革,第一次是1978年美国推出的航空价格管制取消法案( DEREGULATION ),强力冲击了北美和欧洲航空业;第二次是计算机预订系统( COMPUTER RESERVATIONS SYSTEN : S )简称 CRS ,使得所有旅行社都经受了适者生存的检验;第三次是旅行社银行结帐法( BANKSETTLEMENT PLAN ,简称 BSP ),这三次大浪淘沙似的变革归结于一点,就是以信息技术为核心的信息化浪潮正在改变着旅游业。

      1. 国外研究现状

在国外,旅游信息系统的研究起步较早,并且发展迅速。当今西方发达国家高新技术已在旅游开发、旅游管理、旅游营销、旅游交通、旅游服务及教育培训等方面得到广泛推广和应用,大大提高了经济效益、工作效益、服务质量和旅游者的旅游体验。 Internet 网、 WWW 网、网际销售、网络预定、多媒体、无票旅游、虚拟旅行、电子地图、卫星导游、旅游信息系统、高科技主题公园等概念已很快被旅游界所采纳,旅游业发达国家具有轰动效益的旅游产品苟有高新技术的投入。目前世界上很多国家已经建立了基于不同信息技术、面向不同层次用户的旅拔信息系统,并且不同的信息系统之间已经联网,实现了旅游资源信息的共享。世界旅游织建立的世界旅游数据网络,已有近200多个国家的旅游数据库与之实劲了连接,其数据库信息包括旅游景区出入境人数、旅游消费额、运输工具种类、游客流向和饭店服务设施等。

世界旅游组织大力倡导的一种旅游信息化应用系统一目的地营销系统,通过互联网,集旅游信息服务、网上旅游营销、互联网电子商务和旅游行业的管理于一体。目前,在奥地利、芬兰、爱尔兰、加拿大、新加坡、英国、荷兰等十余个旅游发达国家或地区广泛运用,明显地提高了旅游营销效果,已逐步成为旅游行业信息化的一个最核心系统,亚洲的泰国、菲律宾等国家也在着手建设中。

加拿大的旅游网络系统四通八达,既有各种介绍旅游目的地、景区的文章,股市,风景图片,宣传片,还给旅游企业做各种配套宣传。同时除了简洁明了的分类介绍外,大量采用链接方式,能够满足各种信息搜索的需求。

澳大利亚利用虚拟现实技术在因特网上建立城市的虚拟旅游系统,远程再现城市风光、模拟旅游者在城市的生活以及旅游者之间场景式的虚拟社会交往等,吸引旅游者。

      1. 国内研究现状

我国旅游信息业起步比较晚,旅游信息系统的研究工作直到改革开放后的80年代初才开始。国家"六五"计划期间,中科院建立"微机国家旅游资源信息系统",1987年通过鉴定。与此同时,湖南地质遥感所也推出了具有自身特色的旅游资源信息系统一湖南省旅游资源数据信息库。1992年,中科院遥感应用研究所阎守岂等人以海南省为例,研制了一个面向游客的区域旅游信息系(Tourist - oriented Regional Tourism Information System,简称 TORTIS)。八十年代末,国内关于旅游企业管理信息系统的研究出现,主要以饭店管理信息系统和旅行社管理信息系统研究为主,这也正是我国信息技术真正应用于旅游业的开始。九十年代末开展对于旅游网站和旅游电子商务的研究,近几年的研究更具有针对性和代表性,旅游规划和旅游专家系统成为研究重点。

目前国内旅游信息系统的研究主要可分为八大类:旅游多媒体信息系统,旅游管理系统,旅游规划系统,旅游解说系统,旅游目的地信息系统,旅游网站和旅游电子商务,旅游预警系统,旅游专家系统。

    1.   研究内容

通过川渝地区景点信息数据集,调查问卷等。完成川渝地区景点推荐系统。主要步骤如图 0‑1所示:

 

0‑1 写推荐系统步骤图

八爪鱼采集器是一款基于大数据框架的云采集平台,无需编码,无需编写python等爬虫脚本语言,即可实现大规模互联网数据采集解决方案,是国内外最好用大数据网页数据采集平台。

    1.   基于内容推荐算法

基于内容的推荐最初是由信息检索拓展而来,但和信息检索又有不同,其结构如图 0‑2。两者都是通过比较信息一致性的程度来决定是否匹配,其关键问题是相似性计算。不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从相关内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐中,系统从相关的特征的属性中抽象出特征量,通过与用户的个人偏好比对,得到与商品的相匹配程度。

 0‑1基于内容的推荐系统架构

基于内容的推荐方法的优点是简单有效易实现,开发者往往在提高相似性计算的精确度上下功夫即可取得满意的效果。

缺点:

  • 不好把握推荐结果的品质;
  • 对于新用户没有良好的推荐效果;
  • 对于音频、图像、视频等非文本数据信息难以提取其关键信息做比对,需要提取对象有良好的显式的特征以供识别。
    1. 推荐系统冷启动算法

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就称为推荐系统的重要组成部分和先决条件。很多在开始阶段就希望有个性化推荐应用的网站来说,在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。

在前两章的基础上进行实践,先对系统的架构、所需要的功能进行分析,重点在于推荐算法的设计。然后利用合适的平台和工具实现设计。

    1. 推荐系统设计

分为功能需求分析、模块分析、算法设计分析。功能需求分析主要是对系统所要实现的功能进行阐述。模块分析也就是系统的结构划分,现阶段划分为特征提取、推荐处理与推荐结果展示。算法分析主要是计算相似度与结果排序展示。

      1. 功能需求分析

根据评论数、热度高的景点,用余弦相似度算取相似度高的景点,并进行推荐。基于用户信息较少,选取冷启动推荐,完成景点推荐。

      1. 模块分析

推荐系统主要由三个模块构成():用户特征提取模块,推荐处理模块,推荐结果表现模块。

 图 0‑1系统模块组成

      1. 算法设计分析

基于内容的推荐算法是在这样一个事实的基础实现的:如果两个景点都有停车场、优待服务(优待服务里面内容差不多)、景点的介绍等等。则可以认为这两个景点是相似的,可以推荐。

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就称为推荐系统的重要组成部分和先决条件。很多在开始阶段就希望有个性化推荐应用的网站来说,在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。

    1. 推荐系统实现
      1. 数据集采集

本文从携程网攻略景点(旅游攻略搜索结果 (ctrip.com))采集景点数据。数据存储如表0‑1所示:

0‑1 景点数据集

 

景点数据集用于存储景点的基本信息。

用户数据则由调查问卷来记录。如表0‑2所示:

0‑2 用户数据集

 

用户数据集用于存储用户的相关信息。

      1. 推荐系统推荐效果

对景点数据集进行分析预处理,建立词频矩阵。运用余弦相似度求的景点之间的相似度矩阵并进行可视化。

  1. 数据预处理(填充空值)如图 0‑1所示:

0‑1空值填充处理图

可以看出级别,还有官方电话缺失值比较多。用fillna()函数进行填充

  1. 景点级别分布如图 0‑2所示

    ​​​​​​

     0‑2景点级别分布比例图

    如图可以看出除了填充的未知分布较多,以知4A级景点相对来说比较多。

    1. 停用词可视化如图 0‑3所示: 

     

    0‑3前30位的停用词

        1. 推荐系统推荐效果

    相似度推荐(图 0‑1),冷启动推荐(图 0‑2)。

     0‑1余弦相似度推荐

    0‑2冷启动推荐

      论

    信息爆炸的背景下,互联网用户急需从繁杂的数据中解脱出来,信息的互换以及彼此间的互动交流等等。用户已经不满足于仅仅由现实中的朋友关系形成的网络上的好友,而希望在社交网络中认识更多的具有相同兴趣、爱好的用户。虽然目前大多数的社交网站都提供了好友推荐的功能,然而,推荐效果不尽相同,不能很好的满足用户多方位的需求。因此,研究社交网络中的好友推荐问题具有重要而现实的意义。最后,对本文的工作总结如下:

    1. 阐述了个性化推荐的研究背景、推荐算法的国内外研究现状,以及对推荐系统所面临的挑战进行了简要介绍。
    2. 介绍系统设计的理论基础,即内容推荐与冷启动推荐的结合。冷启动推荐是推荐系统中的一种,是将内容推荐与个性化相结合的产物。此外还介绍了个性化推荐的几种不同方式。
    3. 阐述推荐系统的具体设计实现。从设计需求到系统模块设计,再到系统流程,最终完成推荐系统实现。

    今后,我还将对推荐系统进行深入研究,研究侧重于以下几点:

    1. 大规模数据的组织与处理。由于是初次研究推究系统,样本数据规模较小,为使系统更贴近实际,数据的规模将逐渐扩大。
    2. 进行系统界面设计。这样让用户可以选择更加广泛,也不需要去单独去发调查问卷收集问卷调查。
    3. 推荐算法改进。受制于少量的样本数据,算法之间的差异性并不明显,在大规模数据的条件下,研究算法可能产生的不足,并加以改进。

    致 谢

    大学生活一晃而过,回首走过的岁月,心中倍感充实,当我写完这篇毕业论文的时候,有一种如释重负的感觉,感慨良多。

    首先诚挚的感谢我的论文指导老师淳彦老师。她在忙碌的教学工作中挤出时间来审查、修改我的论文。还有教过我的所有老师们,你们严谨细致、一丝不苟的作风一向是我工作、学习中的榜样;他们循循善诱的教导和不拘一格的思路给予我无尽的启迪。

    其次,感谢三年中陪伴在我身边的同学、朋友,感谢他们为我提出的有益的推荐和意见,有了他们的支持、鼓励和帮忙,我才能充实的度过了三年的学习生活。

    最后,感谢学校给了我这个学习的机会,感谢我的父母及家人在背后默默的支持着我。

    未来,我将扬起风帆,砥砺前行。

    参考文献

    [1] 滕传志,赵月旭. 基于随机森林-马尔可夫用户冷启动推荐系统[J]. 计算机工程与设计, 2020, 41(11):5.

    [2] 杨秀梅, 孙咏, 王美吉,等. 新闻推荐系统中用户冷启动问题的研究[J]. 小型微型计算机系统, 2016, 37(3):4.

    [3] 李晓菊. 协同过滤推荐系统中的数据稀疏性及冷启动问题研究[D]. 华东师范大学.

    [4] 李忠俊, 周启海, 帅青红. 一种基于内容和协同过滤同构化整合的推荐系统模型[J]. 计算机科学, 2009, 36(12):4.

    [5] 尹书华, 傅城州. 基于百科大数据的旅游景点推荐系统应用研究[J]. 旅游论坛, 2017, 10(3):9.

    [6] 林琬珍. 基于协同过滤技术的旅游景点推荐系统的设计与实现[D]. 辽宁大学, 2016.

    [7] 王萍, 王明松. 基于Hadoop的旅游景点推荐系统的设计与实现[J]. 信息与电脑, 2020, 32(4):2.

    [8] 罗自红. 一种基于大数据的景区智能推荐系统:, CN202210602310.5[P]. 2022.

    [9] 江徐寒婧. 基于垂直搜索引擎的景点评分推荐系统设计与实现[J]. 教师教育学报, 2013.

    [10] 朱涛. 基于深度协同过滤与多模态分析的旅游景点推荐系统研究[D]. 华东交通大学.

    [11] 朱扬勇孙婧. 推荐系统研究进展[J]. 计算机科学与探索, 2015, 000(005):513-525.

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值