NLP概述和文本自动分类算法详解

最新推荐文章于 2024-09-15 15:29:29 发布

机器之心V

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量6.2k

点赞数 4

文章标签：人工智能数据结构与算法开发工具

本文链接：https://blog.csdn.net/uwr44uouqcnsuqb60zk2/article/details/81201957

版权

本文深入探讨自然语言处理（NLP）的文本分类技术，涵盖NLP概述、序列标注（如中文分词和命名实体识别）、文本特征处理、分类算法及其在深度学习中的应用，如CNN和RNN。文章还介绍了实际应用，如新闻分类、垃圾广告识别和情感分析。

摘要由CSDN通过智能技术生成

自然语言处理一直是人工智能领域的重要话题，更是 18 年的热度话题，为了在海量文本中及时准确地获得有效信息，文本分类技术获得广泛关注，也给大家带来了更多应用和想象的空间。本文根据达观数据联合创始人张健的直播内容《NLP 概述及文本自动分类算法详解》整理而成。

一、 NLP 概述

1.文本挖掘任务类型的划分

文本挖掘任务大致分为四个类型：类别到序列、序列到类别、同步的（每个输入位置都要产生输出）序列到序列、异步的序列到序列。

同步的序列到序列的例子包括中文分词，命名实体识别和词性标注。一部的序列到序列包括机器翻译和自动摘要。序列到类别的例子包括文本分类和情感分析。类别（对象）到序列的例子包括文本生成和形象描述。

2.文本挖掘系统整体方案

达观数据一直专注于文本语义，文本挖掘系统整体方案包含了 NLP 处理的各个环节，从处理的文本粒度上来分，可以分为篇章级应用、短串级应用和词汇级应用。

篇章级应用有六个方面，已经有成熟的产品支持企业在不同方面的文本挖掘需求：

垃圾评论：精准识别广告、不文明用语及低质量文本。
黄反识别：准确定位文本中所含涉黄、涉政及反动内容。
标签提取：提取文本中的核心词语生成标签。
文章分类：依据预设分类体系对文本进行自动归类。
情感分析：准确分析用户透过文本表达出的情感倾向。
文章主题模型：抽取出文章的隐含主题。

为了实现这些顶层应用，达观数据掌握从词语短串分析个层面的分析技术，开发了包括中文分词、专名识别、语义分析和词串分析等模块。

达观数据文本挖掘架构图

3.序列标注应用：中文分词

同步的序列到序列，其实就是序列标注问题，应该说是自然语言处理中最常见的问题。序列标注的应用包括中文分词、命名实体识别和词性标注等。序列标注问题的输入是一个观测序列，输出的是一个标记序列或状态序列。

举中文分词为例，处理「结合成分子」的观测序列，输出「结合/成/分子」的分词标记序列。针对中文分词的这个应用，有多种处理方法，包括基于词典的方法、隐马尔可夫模型（HMM）、最大熵模型、条件随机场（CRF）、深度学习模型（双向 LSTM 等）和一些无监督学习的方法（基于凝聚度与自由度）。

4.序列标注应用：NER

命名实体识别：Named Entity Recognition，简称 NER，又称作「专名识别」，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。通常包括实体边界识别和确定实体类别。

对与命名实体识别，采取不同的标记方式，常见的标签方式包括 IO、BIO、BMEWO 和 BMEWO+。其中一些标签含义是：

B：begin
I：一个词的后续成分
M：中间
E：结束
W：单个词作为实体

大部分情况下，标签体系越复杂准确度也越高，但相应的训练时间也会增加。因此需要根据实际情况选择合适的标签体系。通常我们实际应用过程中，最难解决的还是标注问题。所以在做命名实体识别时，要考虑人工成本问题。

5.英文处理

在 NLP 领域，中文和英文的处理在大的方面都是相通的，不过在细节方面会有所差别。其中一个方面，就是中文需要解决分词的问题，而英文天然的就没有这个烦恼；另外一个方面，英文处理会面临词形还原和词根提取的问题，英文中会有时态变换（made==>make），单复数变换（cats==>cat），词根提取（arabic==>ar