（2）山东大学创新项目实训记录第八周——爬虫构建数据集并清洗数据

wwwwmwwww

已于 2024-06-23 21:19:16 修改

阅读量635

点赞数 10

分类专栏：创新实训文章标签：爬虫

于 2024-04-21 21:58:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68013442/article/details/138046237

版权

创新实训专栏收录该内容

13 篇文章 1 订阅

订阅专栏

1.背景

由于项目模型需要使用趵突泉景区数据进行微调训练，而没有现成的数据集可供使用，于是进行了数据爬虫采集并清理。

想要爬虫的数据：趵突泉景区景点图片与介绍，经处理后形成图片问答数据集。

2.过程

主要从趵突泉景区官网、大众点评小程序、驴迹导游小程序等爬取数据。其中趵突泉景区官网和大众点评小程序主要爬取景点图片与介绍，驴迹导游小程序主要爬取景点对应的导游解说词。

1> 网页数据

针对趵突泉官网，使用后羿采集器该爬虫工具进行爬取，得到每个景点的图片和介绍，其中爬取到的景点介绍作为answer。

爬取后的数据如图示（csv文件，图片存在本地）：

初步数据清洗与处理：

因为要将景点介绍作为图片问答的answer，所以在每条景点介绍中加入“该图片指示的景点是趵突泉/漱玉泉...”，提高答案的质量，使用prompt来构建辅助问题，如“介绍一下这张图片中的景点?”、“这张图片中的景点是什么？”,同时将存在缺失或者重复的数据删去，这样得到了初步的针对趵突泉景区的图片识别问答数据集。

处理后效果如下图（csv文件）：

2> 小程序数据

针对小程序数据，使用Fiddler软件进行小程序抓包并获取相应图片和文字数据。

进入电脑微信中驴迹导游或大众点评小程序所需数据界面，启动Fiddler进行抓包，找到所需的包并解析文字，得到如下图所示的结果，将其保存成文件再进行数据处理。

处理后的数据如下所示：

关注

10
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
（2）山东大学创新项目实训记录第八周——爬虫构建数据集并清洗数据

因为要将景点介绍作为图片问答的answer，所以在每条景点介绍中加入“该图片指示的景点是趵突泉/漱玉泉...”，提高答案的质量，使用prompt来构建辅助问题，如“介绍一下这张图片中的景点?”、“这张图片中的景点是什么？进入电脑微信中驴迹导游或大众点评小程序所需数据界面，启动Fiddler进行抓包，找到所需的包并解析文字，得到如下图所示的结果，将其保存成文件再进行数据处理。针对趵突泉官网，使用后羿采集器该爬虫工具进行爬取，得到每个景点的图片和介绍，其中爬取到的景点介绍作为answer。
复制链接

扫一扫

专栏目录

wwwwmwwww CSDN认证博客专家 CSDN认证企业博客

码龄2年

13: 原创

113万+: 周排名

8万+: 总排名

8305: 访问

: 等级

294: 积分

96: 粉丝

159: 获赞

2: 评论

145: 收藏

私信

关注

热门文章

分类专栏

创新实训 13篇

最新评论

（2）山东大学创新项目实训记录第八周——爬虫构建数据集并清洗数据
CSDN-Ada助手: 这篇博文内容丰富，展示了你在山东大学创新项目实训中的实际操作和技能应用。通过构建数据集和清洗数据，你成功提高了答案的质量，这对于景点介绍的准确性和完整性至关重要。此外，你还运用了prompt和Fiddler等工具，展现了你在数据处理和网络抓包方面的能力。在未来的创新项目中，你可以尝试探索更多数据处理和可视化技能，例如数据可视化工具Tableau或Python数据分析库Pandas。同时，了解自然语言处理技术，如BERT模型，可以帮助你更好地处理文本数据和构建更精准的模型。继续保持学习和实践，相信你会在数据领域取得更大的成就！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
（1）山东大学项目实训第七周——大模型及其在微信小程序中的接入调研
CSDN-Ada助手: 恭喜您成功发布了第一篇博客！标题看起来很有深度，对于大模型接入手机端APP这个话题进行了调研，很有见解。接下来，建议您可以在博客中详细介绍大模型接入手机端APP的具体步骤和注意事项，或者分享一些实际案例和经验教训，让读者能够更好地理解和应用这方面的知识。期待您更多精彩的博客内容！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。