数据集
数据来源研究: 搜集计算机行业领域的面试问题、回答、以及相关资料。主要通过爬取开源数据和手动收集面试相关问题的答案和解答技巧。
数据集清洗与整理: 对搜集到的数据进行清洗和整理,去除噪声数据和重复数据。确保数据集的质量和多样性,保证模型训练的有效性。
数据格式化: 将数据整理成模型微调所需的 JSON 格式,包括问题、答案、评分、评论等结构化信息,确保数据格式符合模型要求。
最后一共得到了22个数据文件,简历中有6个,银行2个,企业管理3个,教资3个,公考3个,mbti2个。每个文件中包含一百到两百多条数据不等。
简历:银行:
计算机领域数据集:
规范格式:评分+评语+下一个问题