一、文本分类
历史
上世纪 50 年代:专家规则(pattern)
上世纪 80 年代:知识工程建立专家系统
上世纪 90年代后:统计学习方法,人工特征工程 + 浅层分类模型
特征工程
机器学习的目标是把数据转换成信息,再提炼到知识的过程。特征工程没有很强的通用性,主要要结合对特征任务的理解,主要分为,文本预处理、特征提取、文本表示,将文本转换为计算机可以理解的形式,封装能够分类的信息,即有很强的特征表达能力。
- 特征:数据—信息,决定结果的上限
- 分类器:信息—知识,逼近结果的上限
文本预处理
预处理就是在文本中提取关键词表示文本的过程,中文文本处理主要包括文本分词和去除停用词。
中文分词:特征粒度为词粒度比字粒度要好,分类算法不考虑词序信息,字粒度损失了过多的“n-gram”信息,常见方法有:
- 基于字符串匹配的正向/逆向/双向最大匹配
- 基于理解的句法和语义分析消歧
- 基于统计的互信息/CRF
- WordEmbedding + Bi - LSTM + CRF
停用词:在文本中高频出现并且对文本分类无意义的词
- 删除停用表中的词,属于特征选择的一部分
表示学习
文本表示:将预处理之后的文本转换为计算机可以理解的部分,决定文本分类的质量,常用方法为词袋模型或者向量空间模型,但是忽略了文本上下文的关系,每个词彼此之间独立,无法表征语义信息。
词袋模型(BOW, Bag Of Words) :
- 高维度、高稀疏性
向量空间模型(Vector Space Model):