文章大纲
1.绪论
过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理,以及中文自然语言处理上,似乎没有太厉害的成果?尤其是中文短文本处理的问题上,尚且没有太成功的应用于分布式条件下的深度处理模型?(大公司或许有,但没有开源)本文暂且梳理一下,尝试围绕深度学习和 短文本处理的方方面面就最简单的概念进行一次梳理,并且试图思考一个问题:
深度学习处理中文短文本的最终效果是什么?
我思考后的答案是:
答:是一种模型,可以无需任何语言学知识或手工特征设计,就可被用于中文分词、词性标注以及命名实体识别等多种中文自然语言处理任务,甚至直接改造为分布式大数据可以使用的框架。
2.短文本
姑且认为200字以内的都叫短文本
2.1 短文本的研究范围
- 搜索引擎的搜索结果
- 锚文本
- 互联网聊天信息
- 电子邮件主题
- 论坛评论信息
- 商品描述信息
- 图片描述
- 微博
- 手机短息
- 文档文献摘要