【项目实训】知识库数据处理流程介绍

下面为我绘制的知识库数据处理流程
在这里插入图片描述

  1. 通过爬虫,获取网络上的由网友提供的各大公司面试经验信息以及各大公司对于岗位的介绍与要求
  2. 对网络上充满噪音的数据进行清洗
    • 包括:删去非法符号、广告内容、重复内容、过短内容
  3. 清洗后按照公司进行数据的分类
  4. 对每个公司下的数据以句子为单位,使用bge-large模型嵌入,对文本向量进行聚类
  5. 在聚类后的文本上,以簇为单位使用glm3-6b大模型润色、修改、总结,生成面试经验的总结与面试问题库
  6. 讲收集到的面试问题注入到知识库中,供平台的AI模拟面试与AI对话进行RAG检索使用
  7. 面试经验与面试问题可以在平台前端得到展示和查询
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值