第5章文本处理方法——5.1语料的获取与处理

1.什么是语料库

      语料,即语言材料,是语言学研究的内容,是构成语料库的基本单元。

      语料库,存放的是在语言实际使用中真实出现过的语言材料。

      语料库是以电子计算机为载体承载语言知识的基础资源。

      真实语料需要经过加工(分析和处理),才能成为有用的资源。

2.语料库的种类

(1)异质的

(2)同质的

(3)系统的

(4)专用的

3.语料的获取途径

(1)开放性语料数据集

       中科院自动化所的中英文新闻语料库

       搜狗的中文新闻语料库

       人工生成的机器阅读理解数据集(微软)

       一个开放问题与回答的挑战数据集(微软)

(2)爬虫技术

(3)自由平台

4.语料的处理

(1)获取语料

(2)格式化文本

(3)特征工程

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值