2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

https://www.toutiao.com/a6655113946241958403/

 

2019-02-07 12:41:03

基本上所有的中文自然语言处理任务,第一步都需要先分词。中文分词是中文NLP的基础任务和研究方向。小编前些日子,在Arxiv上看到了蔡登同学开放的《中文分词十年又回顾: 2007-2017》。文章中回顾了2007-2017年中文分词的各种方法,现分享给大家。感兴趣童鞋 关注本头条号 私信回复 0207 获取下载链接。


内容简介

本文回顾中文分词在2007-2017十年间的技术进展,尤其是自深度学习渗透到自然语言处理以来的 主要工作。我们的基本结论是,中文分词的监督机器学习方法在从非神经网络方法到神经网络方法的 迁移中尚未展示出明显的技术优势。中文分词的机器学习模型的构建,依然需要平衡考虑已知词和未 登录词的识别问题。尽管迄今为止深度学习应用于中文分词尚未能全面超越传统的机器学习方法,我 们审慎推测,由于人工智能联结主义基础下的神经网络模型有潜力契合自然语言的内在结构分解方式, 从而有效建模,或能在不远将来展示新的技术进步成果。


作者简介

  • 赵海, 男,上海交通大学计算机科学与工程系博士、副教授,从事计算语言学等教研,多次获自然语言处理(包括中文分词等)国际评测第一名。
  • 蔡登,男,上海交通大学计算机科学与工程系硕士研究生。
  • 黄昌宁,男,教授、高级研究员,国内计算语言学奠基者之一,是清华大学计算机科学与技术系和亚洲微软研究院两处学术重镇的自然语言处理组创始人,有众多学生为学界翘楚。
  • 揭春雨,男,副教授,清华大学计算机科学与技术系毕业,谢菲尔德大学计算机科学博士,目前香港城市大学翻译及语言学任教,博、硕士导师,获终身教职,主要从事计算语言学和术语 学等教研工作

部分内容

 

2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

 

 

2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

 

 

2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

 

 

2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

 

 

2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

 

 

2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

 

 

2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

 

 

2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

 

 

2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

 

 

2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

 

 

2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

 

 

2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值