自然语言处理包含4个部分:
1 语言识别,语音合成;
2 自然语言理解,对话理解,知识获取和问答,任务理解;
3 底层的机器学习(TennsorFlow和other)
4 个性化信息的获取和利用;
其中两个重要的竞品分析:
google的产品:各种语言场景;
Alexa亚马逊产品:基于云计算的对话机器人产品,NLP定制化场景;
google NLP开源项目:
BERT:Bidirectional Encoder Representations from Transformers 预训练语言表示的方法;
可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
第一个无监督的用于预训练NLP的深度双向系统。
无监督意味着BERT仅使用文本语料库进行训练,也就是说网络上有大量多种语言文本数据可供使用。
NLP中的3个关键概念:
1 文本嵌入(字符串的矢量表示);
2 机器翻译(使用神经网络翻译语言);
3 以及Dialogue和Conversations(可以实时与人进行对话的技术);
还涉及到的技术:
技术1:情绪分析
情绪分析是通过较小元素的语义组成来解释较大文本单元(实体、描述性术语、事实、论据、故事)的