项目地址:https://github.com/liuhuanyong/LanguageResources
致力于利用web公开信息,采用爬虫脚本,加工处理形成语言资源包括词汇知识库,领域语料等语言资源,该资源可用于自然语言处理任务.
1、 corpus_resources.py:词库,包括:
name:人民日报语料
link:https://pan.baidu.com/s/1_E2YA7u61s_ZSSFV0IrHJA
pwd:ux12
desc:人民日报199801语料
name:领域小说文本语料
link:https://pan.baidu.com/s/1JC3UyOu8PuJrnn_JUyF9UQ
pwd:bguf
desc:13个领域的小说文本集合,5000+小说文本
name:字幕文本语料
link:https://pan.baidu.com/s/19BI81W7rFwvLKEjVBPXaUA
pwd:mpfz
desc:基于字幕网抓取,70W字幕文本语料
name:段子文本语料
link:https://pan.baidu.com/s/1go84Pt8O-AHJJOgJhkG89Q
pwd:eju6
desc:基于内涵段子等短文本网站抓取,约50W
name:歌词文本语料
link:https://pan.baidu.com/s/1IOCH9EfZInTdI_GvnuedJA
pwd:nq69
desc:基于歌词网站抓取,歌词数量约20W
2 word_resources.py:领域语料
包括ÿ