source link:https://www.douban.com/note/269081724/
国内可用免费语料库(凡没有标注不可用的链接均可用)
(一) 国家语委
1.国家语委现代汉语语料库 http://www.cncorpus.org/
现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。
2.古代汉语语料库 http://www.cncorpus.org/login.aspx
网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。
《人民日报》标注语料库 http://www.icl.pku.edu.cn/icl_res/
《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。
(三) 北京语言大学
汉语国际教育技术研发中心:HSK动态作文语料库 http://202.112.195.192:8060/hsk/login.asp
语言研究所:北京口语语料查询系统(B J K Y) http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
(四)台湾中央研究院
中研院语料库WWW版所有功能均开放使用,但为防主机资源耗用过剧及顾及数据传输之实际限制,暂以检索结果为限制的条件:院内检索限两万行数据,院外检索限两千行数据。
1.现代汉语平衡语料库 http://www.sinica.edu.tw/SinicaCorpus/
专门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。
2.古汉语语料库 http://www.sinica.edu.tw/ftms-bin/ftmsw
3.近代汉语标记语料库 http://www.sinica.edu.tw/Early_Mandarin/
为应汉语史研究需求而建构的语料库。目前素语料库所搜集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并己陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索。
4.树图数据库 http://treebank.sinica.edu.tw/
「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經由電腦剖析成結構樹,並加以