【项目实训】知识库数据处理流程介绍

Cecilia_97

已于 2024-06-24 13:48:42 修改

阅读量449

点赞数 1

分类专栏：项目实训文章标签：数据分析

于 2024-06-24 13:47:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Cecilia_9728/article/details/139923594

版权

项目实训专栏收录该内容

15 篇文章

订阅专栏

下面为我绘制的知识库数据处理流程
在这里插入图片描述

通过爬虫，获取网络上的由网友提供的各大公司面试经验信息以及各大公司对于岗位的介绍与要求
对网络上充满噪音的数据进行清洗
- 包括：删去非法符号、广告内容、重复内容、过短内容
清洗后按照公司进行数据的分类
对每个公司下的数据以句子为单位，使用bge-large模型嵌入，对文本向量进行聚类
在聚类后的文本上，以簇为单位使用glm3-6b大模型润色、修改、总结，生成面试经验的总结与面试问题库
讲收集到的面试问题注入到知识库中，供平台的AI模拟面试与AI对话进行RAG检索使用
面试经验与面试问题可以在平台前端得到展示和查询

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。