国内可用免费语料库
(一) 国家语委
国家语委现代汉语语料库 http://www.cncorpus.org/
现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。
网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。
(二) 北京大学计算语言学研究中心
现代汉语语料库http://ccl.pku.edu.cn/corpus.asp?item=1
古代汉语语料库http://ccl.pku.edu.cn/corpus.asp?item=2
汉英双语语料库http://ccl.pku.edu.cn/corpus.asp?item=3
(三) 北京语言大学
HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp
北京口语语料查询系统http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
现代汉语平衡语料库 http://rocling.iis.sinica.edu.tw/new/20corpus.htm
LIVAC共時語料庫http://www.livac.org/index.php
兰开斯特汉语语料库http://ling.cass.cn/dangdai/LCMC/LCMC.htm
洛杉矶加州大学汉语语料库http://www.lancs.ac.uk/fass/projects/corpus/UCLA/
中文新闻分类语料库http://www.nlpir.org/?action-viewnews-itemid-145
NLPIR 500万条twitter内容语料库 http://www.nlpir.org/?action-viewnews-itemid-263
NLPIR微博博主语料库100万条 http://www.nlpir.org/?action-viewnews-itemid-232
現代漢語語料庫詞頻統計http://elearning.ling.sinica.edu.tw/CWordfreq.html
中文句結構樹資料庫http://turing.iis.sinica.edu.tw/treesearch/
搜狗文本分类语料库http://www.sogou.com/labs/dl/c.html
哈工大信息检索研究室对外共享语料库 http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
传媒大学文本语料库 http://ling.cuc.edu.cn/RawPub/
词语研究资源库 对外汉语北京http://ling.cuc.edu.cn/newword/web/index.asp
BFSU CQPweb多语言在线语料库检索平台 http://www.iresearch.ac.cn/paper/detail.php?ItemID=6358
英汉双语平行语料库http://www.luweixmu.com/ec-corpus/
babel 汉英平行语料库http://icl.pku.edu.cn/icl_groups/parallel/default.htm
中国法律法规汉英平行语料库(大陆)http://corpus.zscas.edu.cn/lawcorpus1/index.asp
国家语言资源监测与研究中心 http://www.clr.org.cn/
British National Corpus http://www.natcorp.ox.ac.uk/
该部分转载于邓旭东的博客,感谢原作者。
http://blog.sina.com.cn/s/blog_c685f68e0102wdxg.html
同时参考:
http://www.sohu.com/a/196504864_236505
国外可用免费语料库
目前还用不到,以后用到了再补充。