深度学习(CNN RNN)在文本分类中的应用

一、文本分类
历史

上世纪 50 年代:专家规则(pattern)

上世纪 80 年代:知识工程建立专家系统

上世纪 90年代后:统计学习方法,人工特征工程 + 浅层分类模型

image-20180519114414584

特征工程

机器学习的目标是把数据转换成信息,再提炼到知识的过程。特征工程没有很强的通用性,主要要结合对特征任务的理解,主要分为,文本预处理特征提取文本表示,将文本转换为计算机可以理解的形式,封装能够分类的信息,即有很强的特征表达能力。

  • 特征:数据—信息,决定结果的上限
  • 分类器:信息—知识,逼近结果的上限


文本预处理

预处理就是在文本中提取关键词表示文本的过程,中文文本处理主要包括文本分词和去除停用词。

中文分词:特征粒度为词粒度比字粒度要好,分类算法不考虑词序信息,字粒度损失了过多的“n-gram”信息,常见方法有:

  • 基于字符串匹配的正向/逆向/双向最大匹配
  • 基于理解的句法和语义分析消歧
  • 基于统计的互信息/CRF
  • WordEmbedding + Bi - LSTM + CRF

停用词:在文本中高频出现并且对文本分类无意义的词

  • 删除停用表中的词,属于特征选择的一部分


表示学习

文本表示:将预处理之后的文本转换为计算机可以理解的部分,决定文本分类的质量,常用方法为词袋模型或者向量空间模型,但是忽略了文本上下文的关系,每个词彼此之间独立,无法表征语义信息。

词袋模型(BOW, Bag Of Words) :

  • 高维度、高稀疏性

向量空间模型(Vector Space Model):

  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值