(2)山东大学创新项目实训记录第八周——爬虫构建数据集并清洗数据

1.背景

由于项目模型需要使用趵突泉景区数据进行微调训练,而没有现成的数据集可供使用,于是进行了数据爬虫采集并清理。

想要爬虫的数据:趵突泉景区景点图片与介绍,经处理后形成图片问答数据集。

2.过程

主要从趵突泉景区官网、大众点评小程序、驴迹导游小程序等爬取数据。其中趵突泉景区官网和大众点评小程序主要爬取景点图片与介绍,驴迹导游小程序主要爬取景点对应的导游解说词。

1> 网页数据

针对趵突泉官网,使用后羿采集器该爬虫工具进行爬取,得到每个景点的图片和介绍,其中爬取到的景点介绍作为answer。

爬取后的数据如图示(csv文件,图片存在本地):

初步数据清洗与处理:

因为要将景点介绍作为图片问答的answer,所以在每条景点介绍中加入“该图片指示的景点是趵突泉/漱玉泉...”,提高答案的质量,使用prompt来构建辅助问题,如“介绍一下这张图片中的景点?”、“这张图片中的景点是什么?”,同时将存在缺失或者重复的数据删去,这样得到了初步的针对趵突泉景区的图片识别问答数据集。

处理后效果如下图(csv文件):

2> 小程序数据

针对小程序数据,使用Fiddler软件进行小程序抓包并获取相应图片和文字数据。

进入电脑微信中驴迹导游或大众点评小程序所需数据界面,启动Fiddler进行抓包,找到所需的包并解析文字,得到如下图所示的结果,将其保存成文件再进行数据处理。

处理后的数据如下所示:

  • 10
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值