论文阅读笔记:End-to-End Neural Text Classification for Tibetan【2017】

提出一个藏文文本分类模型,代码及其数据均是公开的。https://github.com/FudanNLP/ Tibetan-Classification

首次不使用任何外部NLP工具,利用端到端的神经网络模型对藏文本本实现分类任务;公开了数据集和代码【难得】

背景环境

1、深度学习在自然语言任务中已经取得了很好的效果;

2、藏文是一种资源匮乏的少数民族语言,无法利用深度学习的方法进行大规模语料库训练得到较好的任务结果。

深度学习方法与传统的NLP方法不同,神经模型将文本中单词的分布式表示(密集向量)作为输入,并生成一个固定长度的向量作为文本的表示。

使用神经模型优点

1、可变长度文本的良好表征能够捕捉到自然语言的语义。

2、减轻手工特征工程的负担,使研究人员无需外部NLP工具(如单词分割器和解析器)即可构建端到端的NLP系统。

模型框架

由于藏文单词之间没有明确的分段,单词词汇量也非常大,因此作者直接从音节和字母(字符)两个层面对藏文文本进行建模,而不进行明确的单词分段。

提出的框架由三层组成:

1&#x

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值