知名中文语料库:
1. 中央研究院近代汉语标记语料:http://www.sinica.edu.tw/Early_Mandarin/ (台湾的繁体,在NLTK中有)
2.中央研究院汉籍电子文献 http://www.sinica.edu.tw/ftms-bin/ftmsw3
3. 国家现代汉语语料库 http://124.207.106.21:8080/ 这个没搜索到
4.国家语委现代汉语语料库 http://www.cncorpus.org/index.aspx
5.树图数据库 http://treebank.sinica.edu.tw/
6.语料库语言学在线 corpus4u.org
7. 北京大学CCL语料库 http://ccl.pku.edu.cn/corpus.asp
8. 北京大学《人民日报》标注语料库 http://www.icl.pku.edu.cn
9. 北京语言大学的语料库 http://www.lits.tsinghua.edu.cn/ainlp/source.htm
10. 清华大学TH-ACorpus
11. 山西大学语料库
12. 台湾南岛语典藏
13. 香港城市大学LIVAC共时语料库
14.浙江师范大学的历史文献语料库
15. 闽南语典藏
16. 中科院计算所语料库
17. 中文语言资源联盟
18. SKETCHENGINE多语言语料库
19. 红楼梦汉英平行语料库
好多语料库不提供免费离线的语料。
参考:http://www.36dsj.com/archives/21118
https://wenku.baidu.com/view/c9292c21ff00bed5b8f31d28.html
https://wenku.baidu.com/view/c84c1cfddd3383c4bb4cd287.html
https://wenku.baidu.com/view/9b9d7247d1f34693dbef3e64.html