bcc语料库下载_现代汉语相关语料库资源整理及验证 心理学计算机相关专业适用...

因为最近要用到语料库材料库之类的,所以就找了一下,然后发现没有很新的语料库相关的资料整理,就自己做了一份,参考了很多人的整理结果,但是没有记录过程,就不一一引用了,感谢各位前辈.

这些基本上只有几个能够保证是正常使用和下载的,其他在线的比较多,然后没有网页的或者下载不了的也不是不能用,可能只是不公开了,如果能联系到对方院校或者相关的人,应该也是可以正常使用的,所以只是一个索引名单.另外有一个语料库相关的论坛,如果这里面都没有,可以参考一下这个论坛(https://www.corpus4u.org/)
来源名称网页验证
中国传媒大学中传媒体语言语料库(MLC)http://ling.cuc.edu.cn/RawPub/在线
在线分词标注系统ling.cuc.edu.cn/cucseg/在线
新词语研究资源库http://ling.cuc.edu.cn/newword/web/index.asp找不到网页
音视频语料检索系统http://ling.cuc.edu.cn/mmcpub找不到网页
国家语委现代汉语语料库词频表http://corpus.zhonghuayuwen.org/都可用,可下载
现代汉语语料库分词类词频表
现代汉语语料库字频表
古代汉语语料库字频表
汉语拼音标注工具
分词和词性标注工具
字词频率统计工具
现代汉语常用字表
现代汉语通用字表
通用规范汉字表
北京大学计算语言学研究所《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/找不到网页
北大ccl语料库http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp?dir=xiandai只有内网能进
北京大学语料库句子对齐的双语语料库-规范与样例http://klcl.pku.edu.cn/zygx/zyxz/index.htm有样例
句子对齐的双语语料库-规范与样例
中英文概念词典简介与样例
现代汉语切分、标注、注音语料库-1998年1月份样例与规范
现代汉语文本注音软件等(暂无)
汉语词语切分与标注软件说明
GKB规范与1万词样例
北京语言大学汉语国际教育技术研发中心:HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp找不到网页
语言研究所:北京口语语料查询系统(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp找不到网页
大型中文语料库(5亿字,10分库)未查证
BCC语料库 :包涵很多http://bcc.blcu.edu.cn/网页+下载
台湾中央研究院现代汉语平衡语料库http://www.sinica.edu.tw/SinicaCorpus/收费
現代漢語語料庫詞頻統計http://elearning.ling.sinica.edu.tw/CWordfreq.html
古汉语语料库ttp://www.sinica.edu.tw/ftms-bin/ftmsw
近代汉语标记语料库ttp://www.sinica.edu.tw/Early_Mandarin/
中文句結構樹資料庫簡介
树图数据库ttp://treebank.sinica.edu.tw/
中英双语知识本体词网ttp://bow.sinica.edu.tw/
搜文解字ttp://words.sinica.edu.tw/
文国寻宝记ttp://www.sinica.edu.tw/wen/
唐诗三百首ttp://cls.admin.yzu.edu.tw/300/
汉籍电子文献ttp://www.sinica.edu.tw/~tdbproj/handy1/
红楼梦网络教学研究数据中心ttp://cls.hs.yzu.edu.tw/HLM/home.html
汉字命名的心理语言学数据库http://ball.ling.sinica.edu.tw/brain/index.html在线
中文情绪词汇库https://static-content.springer.com/esm/art%3A10.3758%2Fs13428-016-0793-2/MediaObjects/13428_2016_793_MOESM2_ESM.pdf可下载
简体中文词汇判断数据库https://static-content.springer.com/esm/art%3A10.3758%2Fs13428-017-0944-0/MediaObjects/13428_2017_944_MOESM1_ESM.xlsx可下载
汉字书写的心理语言学数据库https://osf.io/7s9kq/可下载
词语小世界https://smallworldofwords.org/zh/project/home
新词语研究资源库http://ling.cuc.edu.cn/newword/showcls2.aspx?classid=94
哈尔滨工业大学哈工大信息检索研究室对外共享语料库资源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm找不到网页
语言云https://www.ltp-cloud.com/intro#srl_how软件包
清华大学汉语均衡语料库TH-ACorpuslits.tsinghua.edu.cn/ainlp/source.html找不到网页
香港教育学院语言资讯科学中心及其语料库实验室http://www.livac.org/index.php?lang=sc在线
中国科学院计算技术研究所跨语言语料库http://mtgroup.ict.ac.cn/new/找不到网页
中文语言资源联盟各种语料库资源chineseldc.org/有样例
CLDChinese Lexical Database (CLD)http://www.chineselexicaldatabase.com/
武汉大学汉语现代文学作品语料库(1979年,527万字)未查证
北京航空航天大学现代汉语语料库(1983年,2000万字)
北京师范大学中学语文教材语料库(1983年,106万8000字)
北京语言学院现代汉语词频统计语料库(1983年,182万字)
国家语言文字工作委员会国家级大型汉语均衡语料库(2000万字)
清华大学现代汉语语料库(1亿字)未查证
山西大学汉语新闻语料库;(1988年,250万字)
标准语料库(2000年,70万字)
上海师范大学生语料库(3000万字);《作家文摘》的标注语料库(100万字)
中国社会科学院语言所现代自然口语语料库
中国科学院自动化所旅游咨询口语对话语料库和旅馆预定口语对话语料库
现代汉语语料库http://ccl.pku.edu.cn/corpus.asp?item=1找不到网页
古代汉语语料库http://ccl.pku.edu.cn/corpus.asp?item=2
汉英双语语料库http://ccl.pku.edu.cn/corpus.asp?item=3
HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp
北京口语语料查询系统http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
现代汉语平衡语料库http://rocling.iis.sinica.edu.tw/new/20corpus.htm
兰开斯特汉语语料库http://ling.cass.cn/dangdai/LCMC/LCMC.htm
洛杉矶加州大学汉语语料库http://www.lancs.ac.uk/fass/projects/corpus/UCLA/可下载
中文新闻分类语料库http://www.nlpir.org/?action-viewnews-itemid-145
NLPIR 500万条twitter内容语料库http://www.nlpir.org/?action-viewnews-itemid-263
NLPIR微博博主语料库100万条http://www.nlpir.org/?action-viewnews-itemid-232
词语研究资源库 对外汉语北京http://ling.cuc.edu.cn/newword/web/index.asp找不到网页
BFSU CQPweb多语言在线语料库检索平台http://www.iresearch.ac.cn/paper/detail.php?ItemID=6358
英汉双语平行语料库http://www.luweixmu.com/ec-corpus/
babel 汉英平行语料库http://icl.pku.edu.cn/icl_groups/parallel/default.htm
中国法律法规汉英平行语料库(大陆)http://corpus.zscas.edu.cn/lawcorpus1/index.asp
国家语言资源监测与研究中心http://www.clr.org.cn/
复旦大学李荣陆文本分类语料库(复旦)http://www.nlpir.org/wordpress/download/tc-corpus-answer.rar可下载
NLPIR新闻语料库及系列互联网语料库http://www.nlpir.org/wordpress/category/corpus%E8%AF%AD%E6%96%99%E5%BA%93/
BosonNLP数据命名实体数据https://bosonnlp.com/dev/resource可下载
情感词典
字频数据
哈工大
语料资源哈工大信息检索研究中心汉语依存树库http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm申请,可下载
[HIT-CIR Chinese Dependency Treebank]
哈工大信息检索研究中心同义词词林扩展版
[HIT-CIR Tongyici Cilin (Extended)]
语言处理模块断句[SplitSentence: Sentence Splitting ]
词法分析[IRLAS: Lexical Analysis System]
基于SVMTool的词性标注[PosTag: Part-of-speech Tagging ]
命名实体识别[NER: Named Entity Recognition ]
基于动态局部优化的依存句法分析[Parser: Dependency Parsing]
基于图的依存句法分析[GParser: Graph-based DP]
全文词义消歧[WSD: Word Sense Disambiguation]
浅层语义标注模块[SRL: hallow Semantics Labeling]
数据表示语言技术置标语言[LTML: Language Technology Markup Language]
可视化工具LTML可视化XSL
华东师大中文词频表https://doi.org/10.1371/journal.pone.0010729.s002样例

226c2d924be51acb0559284d26efd861.png

欢迎关注公众号《来自哈斯巴根的爱》


以上资源来自《来自哈斯巴根的爱》公众号,以上写作权归作者所有,文章仅限学习使用,不用于商业行为,如需转载,请联系作者,若有侵权及疑问,请后台留言!

赞赏小编

52brain,Connect Young Brains.

508537cfa702b17990368aa972981444.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值