自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 与风景对话_交互式旅游推荐系统_数据收集与预处理_08

而我们下一步就是需要将这些json文件进行合并,注意操作时仅需要合并json文件,其他txt文件不需要合并,因为所有txt经过上一步都转换为了json,以下是转换的具体操作。将合并的JSON数据写入文件,确保非ASCII字符不被转义,并使用4个空格进行缩进格式化。结尾,如果是,构建文件的完整路径并以只读模式打开文件。分割成多个JSON对象字符串,然后修正分割后每个对象的格式,确保每个对象以。打印合并操作完成后的信息,显示合并的JSON对象数量和输出文件路径。,用于存储所有合并的JSON对象。

2024-06-24 02:39:36 259

原创 与风景对话_交互式旅游推荐系统_数据收集与预处理_07

通过手动转化的方式显然是不可行的,考虑到python语言的简易性,我们可以通过写一个python函数来实现txt到此json格式的转换。而我们只需要一个Json文件来存储所有数据集,这时就需要将这些数据都整合起来,来方便对模型的输入。语句以只读模式和UTF-8编码打开指定的TXT文件,并读取文件中的所有行,将它们存储在。首先,我们需要将如下所有txt文件格式的数据转为符合要求的json格式的数据。设置脚本的使用路径,指定输入的TXT文件路径。,用于存储即将构造的JSON对象。(输出的JSON文件路径)。

2024-06-24 02:36:56 265

原创 与风景对话_交互式旅游推荐系统_数据收集与预处理_06

通过有效的清洗策略和步骤,我们能够确保最终的数据集具备高质量、高一致性和高可靠性,进而为进一步的文本分析和自然语言处理提供有力支持。但是字数缩减了有四百万之多,看以看出不符合格式的文字片还是较多的,通过数据清洗实现了较好的清洗效果,Json文件中不符合大模型输入要求的数据集都被很好的清洗掉了。可以看出通过数据清洗,筛选出了一些不符合格式的Json对象, 但这数量较少,仅有几十个对象被清洗掉了,说明数据收集中我们选择的爬虫及其效果都是较好的。函数清理和去重文本。这样,我们得到了清理并去重后的文本列表。

2024-06-24 01:53:04 1006

原创 与风景对话_交互式旅游推荐系统_数据收集与预处理_05

由于之前从各旅游网站爬取的数据中包含很多非文本信息,比如表情,空格等,还有很多重复信息,比如转载的旅游文章等,因此,数据清洗是数据处理过程中极其重要的一环,数据清理程序能够处理TXT和JSON文件,移除无关字符、表情符号,并过滤包含广告关键词的文本。总的来说,数据清洗在数据处理流程中扮演了至关重要的角色,为后续的工作奠定了坚实的基础。通过有效的清洗策略和步骤,我们能够确保最终的数据集具备高质量、高一致性和高可靠性,进而为进一步的文本分析和自然语言处理提供有力支持。这样,我们得到了清理并去重后的文本列表。

2024-05-31 03:07:42 572

原创 与风景对话_交互式旅游推荐系统_数据收集与预处理_04

是一个用于爬取小红书网站上有关“东北旅游”相关信息的爬虫。代码通过Selenium控制浏览器模拟用户行为,以获取动态加载的数据,并使用BeautifulSoup解析页面内容。这个爬虫脚本通过模拟用户行为滚动页面并抓取动态加载的数据,然后提取文章内容并保存为JSON文件。在3.中通过获取旅游攻略的链接,得到数据文本文件,保存到了。,访问链接通过4.爬取到真正的数据文件并保存为JSON文件。小红书东北.json。

2024-05-31 02:49:50 500

原创 与风景对话_交互式旅游推荐系统_数据收集与预处理_03

爬虫设计是数据收集过程中至关重要的环节,直接影响到数据的质量和数量。下面详细介绍爬虫设计的各个方面,包括爬虫工具选择、爬虫策略、反爬机制应对、数据提取与存储、数据清洗等内容。通过精心设计和实施爬虫,我们将确保从去哪儿网、马蜂窝和小红书等平台高效获取高质量的旅游数据。这个爬虫代码分为三个主要部分,每个部分负责不同的功能。以下是详细的分析和设计说明:功能与作用分析:定义月份和季节的字典:滚动页面的函数:移除评论后的文本:转换文本格式的函数:代码分析:详细说明:月份字典 :用于将阿拉伯数字的月份转换为中文月份

2024-05-31 02:23:54 878

原创 与风景对话_交互式旅游推荐系统_数据收集与预处理_02

爬虫设计是数据收集过程中至关重要的环节,直接影响到数据的质量和数量。下面详细介绍爬虫设计的各个方面,包括爬虫工具选择、爬虫策略、反爬机制应对、数据提取与存储、数据清洗等内容。通过精心设计和实施爬虫,我们将确保从去哪儿网、马蜂窝和小红书等平台高效获取高质量的旅游数据。代码用于从马蜂窝网站上抓取与“山东”相关的攻略和游记内容,并将这些内容保存到本地文件中。设置ChromeOptions,排除。

2024-05-31 02:20:21 902

原创 与风景对话_交互式旅游推荐系统_数据收集与预处理_01

去哪儿网(Qunar)是中国领先的旅游搜索和在线预订平台,成立于2005年。作为一个综合性的旅游平台,去哪儿网提供了包括机票、酒店、景点门票、度假产品等在内的多种旅游服务。平台上不仅有大量用户生成的评价和攻略,还有丰富的旅游产品信息,这为我们的数据收集提供了一个宝贵的资源库。马蜂窝(Mafengwo)成立于2006年,是中国最大的旅游社区和旅游点评平台之一。作为一个UGC(用户生成内容)平台,马蜂窝上的内容主要由用户创建,包括旅游攻略、游记、点评等。这使得马蜂窝成为一个汇集了真实用户体验和建议的宝贵资源库。

2024-05-30 23:09:48 951

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除