目录
一、需求
我们的项目旨在针对趵突泉景区(等景区)设计一个多模态智能问答和实时导游的微信小程序,以便为游客提供客制化的导游服务,解答用户在旅游途中真正关心的问题。
小组在立项的时候,选取了支持图像和文字多模态的ChatGLM3-6B作为我们所使用的大模型。经过调研,网络上可用于训练ChatGLM3-6B的数据集数不胜数,但是针对旅游这一领域的数据集却一集难求,为了对大模型进行微调以便更有效地满足我们的需求,爬取与趵突泉景区有关的数据形成完整且可靠的数据集成了唯一途径。
二、爬虫工具
我们选择 后羿采集器 和 Progress Telerik Fiddler Web Debugger 作为我们的爬虫工具。这些工具可以方便我们爬取并筛选我们所需要的数据。
三、数据来源
我们所选要的数据大致可以分成两部分—— 大模型训练数据 和 导游解说词 ,导游解说词同样可以作为大模型的训练数据来使用。
为了保证数据的准确性和优质,我们筛选了多个网站和小程序进行数据的爬取(如 趵突泉官网 http://www.txdyq.cn/index.php?m=content&c=index&a=lists&catid=32)。
四、数据爬取
以使用 Progress Telerik Fiddler Web Debugger 爬取 驴迹导游 为例介绍我们数据爬取的过程。
4.1 文字获取
打开 Progress Telerik Fiddler Web Debugger ,同时使用微信小程序电脑版打开 驴迹导游 小程序,进入所需数据的页面,启动Fiddler抓包,找到我们所需的包并解析文字,将得到的文字保存。如图1所示。
图1 使用Fiddler抓包微信小程序
4.2 图像获取
我们使用 后羿采集器 爬取趵突泉官网、趵突泉新闻网等网站,得到众多有关趵突泉的景点的照片,我们去除其中模糊不清、景点不明确、水印过大等可能对模型训练产生影响的图片,其余图像进行编号保存。
4.3 数据处理
我们在驴迹导游小程序上爬取的解说词作为我们实时导游系统中的预存解说词,存入到数据库中。
其余数据将作为大模型的训练数据进行数据处理,我们将景点的图片作为训练中的图像数据,使用prompt构建辅助问题,以对应图像的解说词、景点介绍作为大模型的answer,形成了小有规模的针对趵突泉景区的ChatGLM3-6B的可用数据集。如图2所示。
图2 数据集(部分)