NLP文本分类之基于传统机器学习算法

最新推荐文章于 2023-07-04 17:05:41 发布

似海深眸

最新推荐文章于 2023-07-04 17:05:41 发布

阅读量1.2k

点赞数 1

分类专栏： NLP 文章标签： NLP 入门实战自然语言处理代码机器学习

本文链接：https://blog.csdn.net/qq_43266327/article/details/107218512

版权

1 篇文章 0 订阅

订阅专栏

特点：人工特征工程+浅层分类模型

抽象来说，机器学习问题是把数据转换成信息再提炼到知识的过程，特征是“数据–>信息”的过程，决定了结果的上限，而分类器是“信息–>知识”的过程，则是去逼近这个上限。

代码地址：https://github.com/xuwlgo/Dive-Into-NLP

将文本表示为计算机可以识别的，能够代表该文档特征的特征矩阵的过程；

通常将特征工程分为文本预处理、特征提取、文本表示三部分

即提取文本中的关键词表示文本的过程

基于字符串匹配的分词方法：
过程：这是一种基于词典的中文分词，核心是首先建立统一的词典表，当需要对一个句子进行分词时，首先将句子拆分成多个部分，将每一个部分与字典一一对应，如果该词语在词典中，分词成功，否则继续拆分匹配直到成功。
核心：字典，切分规则和匹配顺序
分析：
优点：速度快，实现简单；
缺点：对歧义和未登录词处理效果不佳
基于理解的分词方法：
即通过计算机模拟人对句子的理解，达到识别词的效果；所以在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。包含：分词子系统、句法语义子系统、总控部分
分析：需要大量的语言知识和信息，由于汉语言系统的复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。
基于统计的分词方法：
过程：统计学认为分词是一个概率最大化问题；即拆分句子，基于语料库，统计相邻的字组成的词语出现的概率，按照概率值进行分词。
核心：一个完整的语料库

即从文本中抽取出能够体现文本特点的关键特征，把文本预处理后转换成计算机可理解的方式，抓取特征到类别之间的映射。

包括特征项的选择和特征权重计算两部分