前言
本文将介绍基于TextCNN的文本处理相关
有什么用?
广泛应用于辅助决策、个性化推荐、网页分类、话题跟踪、情报过滤中
- 比如辅助决策:在决策过程中做好分析问题、预计后果、处理不确定因素,最后进行评价与选择方案
- 话题跟踪:对每一个新话题自动识别并且对旧话题的跟踪
为什么有这个用处?
我们来了解一下文本分类的原理:
传统的机器学习模型进行分类的步骤:
1、清洗文本,提取与去除
2、构造特征和特征的映射,用相应的机器学习模型对特征建模,进而同通过模型进行文本分类
深度学习:
- 首先:输入文本
- 预处理:对文本进行冗余、没用的部分进行去除。清洗文本,去除比如标点、介词、停词等
- 分词:对预处理阶段的词语进行分词操作,识别其中的未登录词。未登录词:没有被收录在分词词表,但是必须切分出来的词。从文本中获取重要的词汇和短语。比如人名、地名等
- 特征提取:对文本结果进行文本特征提取,降低维度、减少计算量
- 文本表示:对文本通过一定的映射表进行转换为计算机能够识别的形式,进而为下一步做准备
- 文本分类:是核心部分,利用TextCNN进行分类
针对文本的表示:将现实问题转化为数学问题
文本是一个非结构化的语言,计算机并不能识别,这个