NLP基础
按NLP概念、通用文本预处理技术、文本表示方法三大板块总结NLP基础。
NLP概念
主要围绕以下问题
- 什么是NLP?
- NLP的核心任务?
- 有哪些应用场景?
- 当前的主要挑战在哪里?
什么是NLP?
自然语言处理,以人类的自然语言作为研究对象,希望让机器理解自然语言。
NLP有哪些核心任务?
分两大类:自然语言理解(NLU)和自然语言生成(NLG),前者侧重于「从自然语言(语音/文本))中抽取语义(人类希望借助语言表达的含义)」,如意图识别,后者侧重于「根据一定语义生成复合人类表达习惯的自然语言(语音/文本)」,如机器文学创作。
NLP有哪些应用场景?
- 问答系统
一个很经典的应用场景是问答系统,用户提出问题,机器给予回答。通常来说,问答系统的基本框架如图1所示。机器从大量的语料库(可能是某种百科)中抽取知识,构建知识库,然后针对用户提出的问题,根据其知识储备基于最合适的回答。比较有代表性的问答系统有IBM的Watson。
![662b0e346d49407846c5953b1d145553.png](https://i-blog.csdnimg.cn/blog_migrate/1f55b642a77d64d5072a285bfa1f0286.png)
由于技术的瓶颈,要实现百问百知的问答系统还是很难,目前大多数问答系统都是针对某一特定领域或特定任务的问答系统。
- 情感分析
情感分析即分析某段文本具有什么样的情感类型,其应用案例较多,如舆情监控、事件监测、产品评论分析、股票趋势预测等。以外大多数情感分析都是粗粒度的分析,即指分析某一段文本/语音反映出的情感是正向、负向还是中性的,但对于某些场景而言,这种分析可能并不是很有意义。以用户评论为例,用户不一定会对全盘肯定或全盘否定某次购物体验,其对商城/餐馆/酒店的评价可能是多维度的,如肯定服务态度,否定整体环境。因此便有细粒度的情感分析,分析「某人对某事的哪些方面持何种态度」。
- 机器翻译
机器翻译也是经典的应用场景之一,已有许多出名的产品,如谷歌翻译、有道翻译、DeepL、有道翻译、DeepL等,可部署于桌面端、Web端和移动端,方便翻译。
前段时间,网易还推出了有道翻译笔(不是打广告),更加小的身躯容纳下了更为广阔的词库,亲身体验过感觉翻译质量也还OK。
- 自动摘要
自动摘要即将长句子浓缩成短句表达。
- 信息抽取
信息抽取其实就是上述图1中从语料库到知识库过程中的一项技术,所做的工作是从非结构化的文本数据提取信息,整理成结构化的知识库。
- 对话系统 </