语料库

语料库

语料库作为自然语言处理领域中的数据集,使我们教机器理解语言不可或缺的习题集。在这一节中,我们来了解一下中文处理中的常见语料库,以及语料库建设的话题。

中文分词语料库

中文分词语料库指的是,由人工正确切分后的句子集合。

词性标注语料库

指的是切分并为每个词语指定一个词性的预料。总之,我们要教机器干什么,我们就得给机器示范什么。依然以《人民日报》语料库为例,1998年的《人民日报》一共含有43种词性,这个集合称作词性标注集。

命名实体识别语料库

这种语料库人工标注了文本内部制作者关心的实体名词以及实体类别。

句法分析语料库

将句子经过分词、词性标注和句法标注。

文本分类语料库

指的是人工标注了所属分类的文章构成的语料库。以著名的搜狗文本分类语料库为例,一共包含汽车、财经、IT、健康、体育、旅游、教育、招聘、文化、军事10个类别。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值