所有词相似度数据集结构都是类似三列结构,如下所示:
ws.txt
gem jewel 3.94
midday noon 3.94
automobile car 3.92
cushion pillow 3.84
boy lad 3.82
cock rooster 3.68
implement tool 3.66
...
来源及修改:
数据集来源:
MC-30 TR-3k MTurk287 MTurk771 RG-65 STANFORD 353-ALL 353-REL 353-SIM YP-130
修改原因:
数据集中词对相似度评分区间不同,具体如下所示。修改后ws.txt包含所有词相似度词对,并将评分归一到 [0,1] 区间。
MC-30 0-5
TR-3k 0-50
MTurk287 0-5
MTurk771 0-5
RG-65 0-5
STANFORD 0-10
353-ALL 0-10
353-REL 0-10
353-SIM 0-10
YP-130 0-4