Intent Classification
意图分类“intent classification”是NLP的一个重要的部分,特别对于任何的智能机器人助手平台来说。
Datasets:
(1)CLINC150
该文件包含150个意图类,每个类具有100个训练,20个验证和30个测试样本。
(2)Search4Code
Search4Code是基于C#和Java的代码搜索查询的大规模基于Web查询的数据集。 使用弱监督技术从Microsoft Bing的匿名搜索查询日志中提取Search4Code数据。Search4Code数据集由现实世界中的用户查询和相应的最常单击的URL组成。每个查询还具有一个标签,该标签表示该查询是否具有代码搜索意图
Search4Code数据集包含6596个Java查询和4974个C#查询。