项目实训日志(十一)-数据部分工作总结

   数据集

数据来源研究: 搜集计算机行业领域的面试问题、回答、以及相关资料。主要通过爬取开源数据和手动收集面试相关问题的答案和解答技巧。
    数据集清洗与整理: 对搜集到的数据进行清洗和整理,去除噪声数据和重复数据。确保数据集的质量和多样性,保证模型训练的有效性。
    数据格式化: 将数据整理成模型微调所需的 JSON 格式,包括问题、答案、评分、评论等结构化信息,确保数据格式符合模型要求。

最后一共得到了22个数据文件,简历中有6个,银行2个,企业管理3个,教资3个,公考3个,mbti2个。每个文件中包含一百到两百多条数据不等。

简历:银行:

计算机领域数据集:

规范格式:评分+评语+下一个问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值