NLP 技术落地最普遍的场景就是智能客服,如阿里的”小蜜“,京东的“JIMI”等等。NLP 技术也广泛应用于搜索系统。无论是“智能客服”,还是“搜索系统”,构建的前提是拥有“高质量的QA知识库”。今天聊聊“如何构建高质量QA知识库。”。
历史对话数据分布分析
基于公司现有系统积累的大规模对话文本数据,需要对文本数据进行归类处理,分析每个部分数据的占比,挖掘出有价值的文本通过 NLP 相关技术进行商业价值转化。下文以医疗领域来举例说明,通过输入对象,可以将文本分为客服输入和用户输入两部分。挖掘相关问题,主要从用户输入文本出发,用户输入文本根据问题的类型大致可以分为以下几种):
- 基本常识相关问题。 比如:孕妇饮食需要注意什么?如何进行体检预约?
- 业务相关问题。 比如:(妇科问诊)肚子疼怎么办?针对该问题,医生不能盲目下结论,需要询问用户的一些信息(是否孕期,具体哪里痛等等)。
- 闲聊问题。 闲聊文本占比蛮多,不在分析范围内。
通过文本归纳以及数据分析,在用户输入文本中,基本问题占比34%,业务问题占比28%,闲聊问题占比48%。 基本问题和业务问题是具有价值的部分,通过挖掘基