大多answer selection论文中wikiqa的873/126/243清洗结果,是按txt格式的数据集清洗的,tsv格式的数据比txt少。
txt格式训练集:20360条
tsv格式训练集:20348条
如果按tsv,清洗结果应该是872/126/241
============================
README里对txt格式数据的说明是slightly processed data (tokenization)
大多answer selection论文中wikiqa的873/126/243清洗结果,是按txt格式的数据集清洗的,tsv格式的数据比txt少。
txt格式训练集:20360条
tsv格式训练集:20348条
如果按tsv,清洗结果应该是872/126/241
============================
README里对txt格式数据的说明是slightly processed data (tokenization)