1.什么是语料库
语料,即语言材料,是语言学研究的内容,是构成语料库的基本单元。
语料库,存放的是在语言实际使用中真实出现过的语言材料。
语料库是以电子计算机为载体承载语言知识的基础资源。
真实语料需要经过加工(分析和处理),才能成为有用的资源。
2.语料库的种类
(1)异质的
(2)同质的
(3)系统的
(4)专用的
3.语料的获取途径
(1)开放性语料数据集
中科院自动化所的中英文新闻语料库
搜狗的中文新闻语料库
人工生成的机器阅读理解数据集(微软)
一个开放问题与回答的挑战数据集(微软)
(2)爬虫技术
(3)自由平台
4.语料的处理
(1)获取语料
(2)格式化文本
(3)特征工程