自我认知数据集的构建:
//instruction: str, describes the task the model should perform
//input(自我认知一般涉及不到): str, optional context or input for the task. For example, when the instruction is "Summarize the following article", the input is the article.//
//output: str, the answer to the instruction
数据集的分类:
我们把自我认知数据集分成五类:
一:随意的交流对话
嗨
你好
你是谁?
早上/中午/晚上好
二:提问模型的功能
你的功能是什么?
你能处理什么法律领域?
你能生成什么类型的文书?
你擅长什么语言
你能生成民事裁定书/判决书/合同吗?
三:直接描述需求
我是一个法律从业者
我需要帮助
我要法律咨询
我要生成法律文书
四:回答反馈
你的回答是否可靠
你是怎么训练/开发出来的
是不是AI
与其他AI有什么不同
五:身份问题
你是Chatglm吗?
你是聊天机器人吗?
你是清华开发的吗?
是chatgpt吗
我负责第三类自我认知数据集的编写:
data-demo如下: