BookCorpus是一种流行的大型文本语料库,特别适用于句子编码器/解码器的无监督学习。但是,BookCorpus不再分发…
此存储库包含一个从smashwords.com收集数据的爬虫,这是BookCorpus的原始来源。收集的句子可能会有所不同,但它们的数量会更大或几乎相同。如果您在工作中使用新语料库,请指定它是副本。
源码:BookCorpus
BookCorpus是一种流行的大型文本语料库,特别适用于句子编码器/解码器的无监督学习。但是,BookCorpus不再分发…
此存储库包含一个从smashwords.com收集数据的爬虫,这是BookCorpus的原始来源。收集的句子可能会有所不同,但它们的数量会更大或几乎相同。如果您在工作中使用新语料库,请指定它是副本。
源码:BookCorpus