NLP归纳大一览

最新推荐文章于 2022-11-18 15:16:36 发布

zhurui_xiaozhuzaizai

最新推荐文章于 2022-11-18 15:16:36 发布

阅读量635

点赞数

分类专栏：自然语言处理文章标签：自然语言处理 nlp

本文链接：https://blog.csdn.net/weixin_36378508/article/details/105511226

版权

自然语言处理专栏收录该内容

78 篇文章 26 订阅

订阅专栏

1 自然语言nlp都可以做什么

1.1. 元素分析

词法分析（Lexical Analysis）：对自然语言进行词汇层面的分析，是NLP基础性工作
分词（Word Segmentation/Tokenization）：对没有明显边界的文本进行切分，得到词序列
新词发现（New Words Identification）：找出文本中具有新形势、新意义或是新用法的词
形态分析（Morphological Analysis）：分析单词的形态组成，包括词干（Sterms）、词根（Roots）、词缀（Prefixes and Suffixes）等
词性标注（Part-of-speech Tagging）：确定文本中每个词的词性。词性包括动词（Verb）、名词（Noun）、代词（pronoun）等
拼写校正（Spelling Correction）：找出拼写错误的词并进行纠正
NER:命名实体识别

1.2. 句子分析

句子分析（Sentence Analysis）：对自然语言进行句子层面的分析，包括句法分析和其他句子级别的分析任务
组块分析（Chunking）：标出句子中的短语块，例如名词短语（NP），动词短语（VP）等
超级标签标注（Super Tagging）：给每个句子中的每个词标注上超级标签，超级标签是句法树中与该词相关的树形结构
成分句法分析（Constituency Parsing）：分析句子的成分，给出一棵树由终结符和非终结符构成的句法树
依存句法分析（Dependency Parsing）：分析句子中词与词之间的依存关系，给一棵由词语依存关系构成的依存句法树
语言模型（Language Modeling）：对给定的一个句子进行打分，该分数代表句子合理性（流畅度）的程度
语种识别（Language Identification）：给定一段文本，确定该文本属于哪个语种
句子边界检测（Sentence Boundary Detection）：给没有明显句子边界的文本加边界

1.3. 语义分析

语义分析（Semantic Analysis）：对给定文本进行分析和理解，形成能勾够表达语义的形式化表示或分布式表示
词义消歧（Word Sense Disambiguation）：对有歧义的词，确定其准确的词义
语义角色标注（Semantic Role Labeling）：标注句子中的语义角色类标，语义角色，语义角色包括施事、受事、影响等
抽象语义表示分析（Abstract Meaning Representation Parsing）：AMR是一种抽象语义表示形式，AMR parser把句子解析成AMR结构
一阶谓词逻辑演算（First Order Predicate Calculus）：使用一阶谓词逻辑系统表达语义
框架语义分析（Frame Semantic Parsing）：根据框架语义学的观点，对句子进行语义分析
词汇/句子/段落的向量化表示（Word/Sentence/Paragraph Vector）：研究词汇、句子、段落的向量化方法，向量的性质和应用

1.4. 信息抽取

信息抽取（Information Extraction）：从无结构文本中抽取结构化的信息
命名实体识别（Named Entity Recognition）：从文本中识别出命名实体，实体一般包括人名、地名、机构名、时间、日期、货币、百分比等
实体消歧（Entity Disambiguation）：确定实体指代的现实世界中的对象
术语抽取（Terminology/Giossary Extraction）：从文本中确定术语
共指消解（Coreference Resolution）：确定不同实体的等价描述，包括代词消解和名词消解
关系抽取（Relationship Extraction）：确定文本中两个实体之间的关系类型
事件抽取（Event Extraction）：从无结构的文本中抽取结构化事件
情感分析（Sentiment Analysis）：对文本的主观性情绪进行提取
意图识别（Intent Detection）：对话系统中的一个重要模块，对用户给定的对话内容进行分析，识别用户意图
槽位填充（Slot Filling）：对话系统中的一个重要模块，从对话内容中分析出于用户意图相关的有效信息

1.5. 顶层任务

顶层任务（High-level Tasks）：直接面向普通用户，提供自然语言处理产品服务的系统级任务，会用到多个层面的自然语言处理技术
机器翻译（Machine Translation）：通过计算机自动化的把一种语言翻译成另外一种语言
文本摘要（Text summarization/Simplication）：对较长文本进行内容梗概的提取
问答系统（Question-Answering Systerm）：针对用户提出的问题，系统给出相应的答案
对话系统（Dialogue Systerm）：能够与用户进行聊天对话，从对话中捕获用户的意图，并分析执行
阅读理解（Reading Comprehension）：机器阅读完一篇文章后，给定一些文章相关问题，机器能够回答
自动文章分级（Automatic Essay Grading）：给定一篇文章，对文章的质量进行打分或分级
序列标注：分词，词性标注，命名实体识别
分类任务：文本分类，情感计算
句子关系判断：entailment（分类为蕴含或矛盾），相似度计算
生成式任务：机器翻译，问答系统，文本摘要

1.6 challenges
多种表达方式
一词多义
分词
上下文

2 nlp任务的一般步骤

在这里插入图片描述

3.NLP一些实话（2021.2.19）

深度学习在自然语言处理当中，除了在分类问题上能够取得较好效果外（如单选问题：情感分类、文本分类、正确答案分类问题等），在信息抽取上，尤其是在元组抽取上基本上是一塌糊涂，在工业场景下很难达到实用水准。

目前各种评测集大多是人为标注的，人为标注的大多为干净环境下的较为规范的文本，而且省略了真实生产环节中的多个环节。在评测环节中达到的诸多state-of-art方法，在真实应用场景下泛化能力很差，大多仅仅是为了刷榜而刷榜。

目前关于知识图谱的构建环节中，数据大多数都还是来自于结构化数据，半结构化信息抽取次之，非结构化数据抽取最少。半结构化信息抽取，即表格信息抽取最为危险，一个单元格错误很有可能导致所有数据都出现错误。非结构化抽取中，实体识别和实体关系识别难度相当大。

工业场景下命名实体识别，标配的BILSTM+CRF实际上只是辅助手段，工业界还是以领域实体字典匹配为主，大厂中往往在后者有很大的用户日志，这种日志包括大量的实体信息。因此，生产环节中的实体识别工作中，基础性词性的构建和扩展工作显得尤为重要。

目前关于知识图谱推理问题，严格意义上不属于推理的范畴，最多只能相当于是知识补全问题，如评测中的知识推理任务，是三元组补全问题。

目前舆情分析还是处于初级阶段。目前舆情分析还停留在以表层计量为主，配以浅层句子级情感分析和主题挖掘技术的分析。对于深层次事件演化以及对象级情感分析依旧还处于初级阶段。

Bert本质上仅仅是个编码器，是word2vec的升级版而已，不是无所不能，仅仅是编码能力强，向量表示上语义更为丰富，然而大多人都装糊涂。

学界和业界最大的区别在于，学界以探索前沿为目的，提新概念，然后搭个草图就结束，目光并不长远，打完这一战就不知道下一战打什么，下一战该去哪里打，什么时候打，或者打一枪换个阵地再打。而业界，往往面临着生存问题，需要考虑实际问题，还是以解决实际问题为主，因此没必要把学界的那一套理念融入到生产环节中，要根据实际情况制定自己的方法。

利用结构化数据，尤其是百科类infobox数据，采集下来，存入到Neo4j图数据库中，就称自己建立了知识图谱的做法是伪知识图谱做法。基于这类知识图谱，再搞个简单的问答系统，就标榜自己是基于知识图谱的智能问答，实际上很肤浅。

知识图谱不是结构化知识的可视化（不是两个点几条边）那么简单，那叫知识的可视化，不是知识图谱。知识图谱的核心在于知识的图谱化，特点在于知识的表示方法和图谱存储结构，前者决定了知识的抽象表示维度，后者决定了知识运行的可行性，图算法(图遍历、联通图、最短路径)。基于图谱存储结构，进行知识的游走，进行知识表征和未知知识的预测。

物以稀为贵，大家都能获取到的知识，往往价值都很低。知识图谱也是这样，只有做专门性的具有数据壁垒的知识图谱，才能带来商业价值。

目前智能问答，大多都是人工智障，通用型的闲聊型问答大多是个智障，多轮对话缺失，答非所问等问题层出不穷。垂直性的问答才是出路，但真正用心做的太少，大多都是处于demo级别。

大多数微信自然语言处理软文实际上都不可不看，纯属浪费时间。尤其是在对内容的分析上，大多是抓语料，调包统计词频，提取关键词，调包情感分析，做柱状图，做折线图，做主题词云，分析方法上千篇一律。应该从根本上去做方法上的创新，这样才能有营养，从根本上来说才能有营养可言。文本分析应该从浅层分析走向深层分析，更好地挖掘文本的语义信息。

目前百科类知识图谱的构建工作有很多，重复性的工作不少。基于开放类百科知识图谱的数据获取接口有复旦等开放出来，可以应用到基本的概念下实体查询，实体属性查询等，但目前仅仅只能做到一度。

基于知识图谱的问答目前的难点在于两个方面，1）多度也称为多跳问题，如姚明的老婆是谁，可以走14条回答，但姚明的老婆的女儿是谁则回答不出来，这种本质上是实体与属性以及实体与实体关系的分类问题。2）多轮问答问题。多轮分成两种，一种是指代补全问答，如前一句问北京的天气，后者省略“的天气”这一词，而只说“北京”，这个需要进行意图判定并准确加载相应的问答槽。另一种是追问式多轮问答，典型的在天气查询或者酒店预订等垂直性问答任务上。大家要抓住这两个方面去做。

关系挖掘是信息抽取的重要里程碑，理解了实体与实体、实体与属性、属性与属性、实体与事件、事件与事件的关系是解决真正语义理解的基础，但目前，这方面，在工业界实际运用中，特定领域中模板的性能要比深度学习多得多，学界大多采用端到端模型进行实验，在这方面还难以超越模版性能。

文本分类

二分类
多分类
多层多分类
情感分析
层级情感分析

文本匹配
文本标注
文本生成

在这里插入图片描述

zhurui_xiaozhuzaizai

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
NLP归纳大一览

自然语言nlp都可以做什么自然语言nlp都可以用作哪些元素分析词法分析（Lexical Analysis）：对自然语言进行词汇层面的分析，是NLP基础性工作分词（Word Segmentation/Tokenization）：对没有明显边界的文本进行切分，得到词序列新词发现（New Words Identification）：找出文本中具有新形势、新意义或是新用法的词形态分析（Mo...
复制链接

扫一扫