- 博客(14)
- 收藏
- 关注
原创 与风景对话_交互式旅游推荐系统_数据预处理与分析(七)基于规则的离群数据识别
我们发现不仅会出现英文报错,也会出现中文报错,这些报错多源于浏览器插件错误或者爬虫无法正确的识别文章中的视频文件导致的报错,因为我们也需要对其进行处理,但是由于是中文类型的报错,导致我们无法直接采用识别主题语言的方式来对其进行识别,因此我们这次采取基于规则的离群数据识别,即基于关键词和正则表达式的识别。
2024-06-24 01:58:17
104
原创 与风景对话_交互式旅游推荐系统_数据预处理与分析(六)基于文本特征的离群数据识别
定义一个函数来检测语言try:4.储存和过滤# 添加一个新列来存储每个文本的语言# 过滤出主题语言为英语的文本= 'en']# 返回过滤后的 DataFrame。
2024-06-24 01:42:51
281
原创 与风景对话_交互式旅游推荐系统_数据预处理与分析(五)
首先我们定义一个阿拉伯数字到中文数字的映射字典,因为正常人的表达一般只会在0到9之间,很难会出现11/13这种情况,所以我们定义一下几个字符就已经足够了。
2024-06-24 01:28:46
166
原创 与风景对话_交互式旅游推荐系统_数据预处理与分析(四)数据清洗
在这里我们选择pandas作为我们的数据处理工具,Pandas 是 Python 语言的一个扩展程序库,用于数据分析。Pandas 名字衍生自术语 "panel data"(面板数据)和 ""(Python 数据分析)。Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas 一个强大的分析结构化数据的工具集,基础是Numpy(提供高性能的矩阵运算)。因此我们选择pandas作为我们进行数据清洗的工具。
2024-06-24 01:09:02
117
原创 与风景对话_交互式旅游推荐系统_数据预处理与分析(三)使用已有大模型进行的标签识别数据填充
在之前的实验中我们尝试了使用我们自己进行训练的机器学习模型进行数据的标签的填充,但是效果不尽如人意,出现了模型过拟合的情况,在这种情况下,我们没有办法将该模型用于实际的识别中,存在许许多多的问题,因此我们选择采取将自然语言处理与现有的大模型API进行结合来对我们的文本进行处理,实现我们的文本标签处理。为了对中文旅游文本中的月份进行分析和识别,我们选择使用自然语言处理(NLP)技术,结合调用现有的大模型 API(OpenAI 的 GPT-4)进行处理。
2024-06-23 22:39:21
702
原创 阿里云dsw ssh
为了满足更灵活的SSH使用需求,DSW提供了两种SSH连接方案:直连方式和ProxyClient方式。我们通过综合的对两种连接方式的资源依赖、使用方式和使用限制等因素的考虑,选择适合符合我们需求的连接方式。在这里我们使用DSW中的通过在本地配置客户端代理工具ProxyClient,使用SSH协议远程连接DSW实例。
2024-06-23 21:59:50
589
原创 与风景对话_交互式旅游推荐系统_数据预处理与分析(二)基于pytorch的标签识别数据填充
在我们的旅游计划中,很重要的一个部分就是时间与地点的规划,不一样的时间所看到的风景是完全不一样的,因此时间是一个非常重要的内容,首先我们的数据爬取是根据地点来进行的,因此我们需要对数据进行处理,使每一个数据都具有时间特点,因此我们考虑给每一个数据都加上时间,考虑到我们有很多具有时间特征的数据,因此我们考虑通过神经网络的方法来实现我们的设想。夏天的济南秋天的济南二.步骤设计1.准备数据。
2024-06-23 15:40:06
409
原创 与风景对话_交互式旅游推荐系统_数据预处理与分析(一)数据清洗
首先我们对爬虫获取的文本进行分析,我们主要是通过以下几个方面进行分析,首先是数据包含的三个主要字段,分别是input和output。其中instruction包含了描述性的指令信息,即我们在源文本处的标签,该标签允许我们精准的发现我们在进行模型训练时所必须的时间,地点,季节,月份等关键信息,而且其格式也比较统一,因此我们在对文本进行清洗时主要将精力集中在对output部分,即文章部分进行清洗。
2024-06-23 14:34:08
344
原创 山东大学软件学院2024创新实训(四)
在官网下载并解压之后链接数据库右键新建的连接,选择Add Database新建数据库我们首先进行了尝试,将豆瓣电影的数据存入mongoDB中我们发现其体现了传统数据库不具有的灵活的结构,非常适合应用于模型进行分析。
2024-05-31 14:39:19
340
原创 山东大学软件学院2024创新实训(三)
非关系型数据库能以多种格式将数据存储在缓存中,因此查询速度和支持的数据类型更丰富,适合海量、多种格式的数据存储,可以更好地满足高速查询的需求。因此非关系型数据库在机器学习的模型训练过程中具有传统的关系型数据库所不具有的优势,当前的模型训练的主流便是采用非关系型数据库进行分析。
2024-05-31 14:38:43
244
原创 山东大学软件学院2024创新实训(二)
本项目旨在设计和实现一个基于大数据技术的旅游推荐系统,帮助用户在海量旅游信息中快速找到符合个人兴趣和需求的旅游目的地、线路和服务。系统通过收集和分析用户行为数据、旅游目的地数据和社交网络数据,利用推荐算法和大数据分析技术,为用户提供个性化的旅游推荐方案。
2024-05-31 14:38:09
234
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人