2021级山软项目实训(一)——数据爬取

杏坛名师rbt

已于 2024-05-29 21:08:31 修改

阅读量695

点赞数 11

分类专栏：山东大学软件学院2024项目实训文章标签：人工智能

于 2024-05-29 20:26:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_62600644/article/details/139304456

版权

山东大学软件学院2024项目实训专栏收录该内容

10 篇文章 0 订阅

订阅专栏

目录

二、爬虫工具

三、数据来源

四、数据爬取

4.1 文字获取

4.2 图像获取

4.3 数据处理

一、需求

我们的项目旨在针对趵突泉景区（等景区）设计一个多模态智能问答和实时导游的微信小程序，以便为游客提供客制化的导游服务，解答用户在旅游途中真正关心的问题。

小组在立项的时候，选取了支持图像和文字多模态的ChatGLM3-6B作为我们所使用的大模型。经过调研，网络上可用于训练ChatGLM3-6B的数据集数不胜数，但是针对旅游这一领域的数据集却一集难求，为了对大模型进行微调以便更有效地满足我们的需求，爬取与趵突泉景区有关的数据形成完整且可靠的数据集成了唯一途径。

二、爬虫工具

我们选择 后羿采集器 和 Progress Telerik Fiddler Web Debugger 作为我们的爬虫工具。这些工具可以方便我们爬取并筛选我们所需要的数据。

三、数据来源

我们所选要的数据大致可以分成两部分—— 大模型训练数据 和 导游解说词 ，导游解说词同样可以作为大模型的训练数据来使用。

为了保证数据的准确性和优质，我们筛选了多个网站和小程序进行数据的爬取（如 趵突泉官网 http://www.txdyq.cn/index.php?m=content&c=index&a=lists&catid=32）。

四、数据爬取

以使用 Progress Telerik Fiddler Web Debugger 爬取 驴迹导游 为例介绍我们数据爬取的过程。

4.1 文字获取

打开 Progress Telerik Fiddler Web Debugger ，同时使用微信小程序电脑版打开 驴迹导游 小程序，进入所需数据的页面，启动Fiddler抓包，找到我们所需的包并解析文字，将得到的文字保存。如图1所示。

图1 使用Fiddler抓包微信小程序

4.2 图像获取

我们使用 后羿采集器 爬取趵突泉官网、趵突泉新闻网等网站，得到众多有关趵突泉的景点的照片，我们去除其中模糊不清、景点不明确、水印过大等可能对模型训练产生影响的图片，其余图像进行编号保存。

4.3 数据处理

我们在驴迹导游小程序上爬取的解说词作为我们实时导游系统中的预存解说词，存入到数据库中。

其余数据将作为大模型的训练数据进行数据处理，我们将景点的图片作为训练中的图像数据，使用prompt构建辅助问题，以对应图像的解说词、景点介绍作为大模型的answer，形成了小有规模的针对趵突泉景区的ChatGLM3-6B的可用数据集。如图2所示。

图2 数据集（部分）

杏坛名师rbt

关注

11
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。