语料库资源在线:
http://www.cncorpus.org/Resources.aspx
语料库文档资料
国家语委现代汉语语料库介绍 ※下载次数:5481
国家语委现代汉语语料库词类标记集 ※下载次数:3894
国家语委现代汉标注语料库数据及使用说明 ※下载次数:4797
在线语料库字词频数据
现代汉语语料库词频表:在线现代语料库词频数据。 ※下载次数:10266
现代汉语语料库分词类词频表:在线现代语料库带词类标注的词频数据。 ※下载次数:6860
现代汉语语料库字频表:在线现代汉语语料库字频数据。 ※下载次数:4874
古代汉语语料库字频表:在线古代汉语语料库字频数据。 ※下载次数:3256
语料处理软件工具
汉语拼音标注工具:本站开发,用于对汉语文本自动标注拼音。 ※下载次数:3184
分词和词性标注工具:本站开发,用于对汉语文本进行分词和词性标注。 ※下载次数:7412
字词频率统计工具:本站开发,用于统计汉语文本字、词的出现频率,并生成字、词频率表。 ※下载次数:6252
现代汉语字表
现代汉语常用字表:现代汉语3500常用字表,国家语言文字工作委员会1988年1月发布。 ※下载次数:4326
现代汉语通用字表:现代汉语7000通用字表,国家语言文字工作委员会、新闻出版总署1988年发布。 ※下载次数:3374
通用规范汉字表:通用规范汉字表收字8105个,其中一级字3500个,二级字3000个,三级字1605个。
※下载次数:528
其他
北京大学《人民日报》标注语料库:http://www.icl.pku.edu.cn
北京语言大学的语料库:http://www.blcu.edu.cn/kych/H.htm
清华大学的汉语均衡语料库TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm
山西大学的语料库: http://www.sxu.edu.cn/homepage/cslab/sxuc1.htm
台湾中研院的语料库:
现代汉语平衡语料库:http://www.sinica.edu.tw/SinicaCorpus
或 http://www.sinica.edu.tw/~tibe/2-words/modern-words/
或 http://www.sinica.edu.tw/ftms-bin/kiwi.sh
近代汉语标记语料库:http://www.sinica.edu.tw/Early_Mandarin/
古汉语语料库:http://www.sinica.edu.tw/ftms-bin/ftmsw3
或 http://www.eastasian.ucsb.edu/projects/scriptasinica/cgi-bin/ghy/kiwi.cgi
或 http://www.sinica.edu.tw/~tibe/2-words/old-words/
台湾南岛语典藏:http://www.ling.sinica.edu.tw/Formosan/
闽南语典藏:http://southernmin.sinica.edu.tw/
汉籍电子文献:http://www.sinica.edu.tw/~tdbproj/handy1/
或 http://www.sinica.edu.tw/ftms-bin/ftmsw3
香港城市大学的LIVAC共时语料库:http://www.rcl.cityu.edu.hk/livac/
或 http://www.LIVAC.org
浙江师范大学的历史文献语料库: http://lib.zjnu.net.cn/xueke/hyywzx/xkjj.htm
中国科学院计算所的双语语料库:http://mtgroup.ict.ac.cn/corpus/query_process.php
中文语言资源联盟:http://www.chineseldc.org/xyzy.htm
網站名稱 | 網址及簡介 |
古漢語語料庫 | http://www.sinica.edu.tw/ftms-bin/ftmsw3 或 http://www.sinica.edu.tw/~tibe/2-words/old-words/ 古漢語語料庫包含以下五個語料庫: 上古漢語、中古漢語(含大藏經)、近代漢語、其他、出土文獻。部分資料取自史語所漢籍全文資料庫,故兩者間略有重疊。此語料庫之出土文獻語料庫,全部取自史語所漢簡小組所製作的資料庫。 |
近代漢語標記語料庫 | http://www.sinica.edu.tw/Early_Mandarin/ 為應漢語史研究需求而建構的語料庫。目前素語料庫所蒐集的語料已含蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以後)大部分的重要語料,並己陸續開放使用;在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標注的工作,並視結果逐步提供上線檢索。 |
現代漢語平衡語料庫 | http://www.sinica.edu.tw/SinicaCorpus/ 或 http://www.sinica.edu.tw/~tibe/2-words/modern-words/ 或 http://www.sinica.edu.tw/ftms-bin/kiwi.sh 主要針對語言分析而設計,由中央研究院資訊所、語言所詞庫小組完成,內含有簡介、使用說明,現行的語料庫是4.0的版本。 |
唐詩三百首 | http://cls.admin.yzu.edu.tw/300/ 以國中、小學學生為主要使用對象,提供吟唱、繪畫、書法等多媒體資料,文字資料包含作者生平、讀音標注、翻譯、註解、評註、典故出處等資料;檢索點包含作者、詩題、詩句、綜合資料、體裁分類等;檢索結果可以列出全文,並選擇標示相關之文字及多媒體資料。並提供了一套可以自動檢查格律、韻腳、批改的「依韻入詩格律自動檢測索引教學系統」,協助孩子們依韻作詩,協助教師批改習作。 |
樹圖資料庫 | http://treebank.sinica.edu.tw/ 「中文句結構樹資料庫」是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中,抽取句子,經由電腦剖析成,結構樹並加以人工修正、檢驗後的所得的成果。在中文句結構樹中標示了中文句語意和語法的訊息。 目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。 |
中英雙語知識本體詞網 | http://bow.sinica.edu.tw/ 結合詞網,知識本體,與領域標記的詞彙知識庫。 |
搜文解字 | http://words.sinica.edu.tw/ 包含「搜詞尋字」、「文學之美」、「遊戲解惑」、「古文字的世界」四個單元,可由部件、部首、字、音、詞互查,並可查詢在四書、老、莊、唐詩中的出處,及直接連結到出處,閱讀原文。 |
文國尋寶記 | http://www.sinica.edu.tw/wen/ 在搜文解字的基礎之上,以華語文學習者為對象,進一步將字、詞、音的檢索功能與國編、華康、南一等三種版本的國小國語課本結合,與唐詩三百首、宋詞三百首、紅樓夢、水滸傳等文學典籍結合,提供網路上國語文學習的素材。 |
漢籍電子文獻 | http://www.sinica.edu.tw/~tdbproj/handy1/ 包含整部25史 整部阮刻13經、超過2000萬字的臺灣史料、1000萬字的大正藏以及其他典籍。 |
紅樓夢網路教學研究資料中心 | http://cls.hs.yzu.edu.tw/HLM/home.htm 元智大學中國文學網路系統研究室所開發的「網路展書讀—中國文學網路系統」,為研究中心負責人羅鳳珠老師主持,紅樓夢是其中一個子系統,其他還包括善本書、詩經、唐宋詩詞、作詩填詞等子系統。此網站為國內Internet最大中國文學研究資料庫,提供使用者最完整的中國文學研究資料。 |