自然语言处理:包括语言识别、自然语言理解、自然语言生成、人机交互所涉及的中间节点。是人工智能和计算机科学的子学科
自然语言处理的研究方向:
- 基础技术:词法分析、句法分析、实体识别、语义分析、篇章分析、语言模型
- 核心技术:机器翻译、自动问答、情感分析、信息抽取、文本摘要、文本蕴含
- 应用实践:搜索引擎、推荐系统、智能客服、个人助理、舆情分析、知识图谱
文本分类的简介:
在NLP的很多子任务中,绝大部分可以归纳为文本分类任务,比如:
- 情感分析(细粒度情感分析)
- 领域识别
- 意图识别
文本分类的定义:
- 在给定的分类体系中,将文本分到指定的某个或某几类别当中(分类对象:短文本(句子/标题/商品评论)、长文本(文章))
- 分类体系一般由人工构造 ( 新闻分类:政治、体育、军事、社会 ;情感分类:正能量、负能量 ;微博评论分类:好评、中性、差评)
- 分类模式 (2分类问题:属于或不属于,positive,negative ;多分类问题 ;多标签问题:一个文本可以属于多类,多标签分类是文本分类的一大难点)
文本分类方法:
- 人工方法:基于规则的特征匹配,容易理解;依赖专家系统,不同任务需要专门构建特征规则,费时费力。准确率不高。
- 机器学习方法:特征工程+算法(svm/lr/knn)
- 深度学习方法:词向量+模;FastText;TextCNN;TextRNN;TextRCNN;DPCNN;BERT.
文本分类流程:
- 文本预处理:文本去噪;文本分词;去停用词;文本还原;文本消歧;文本替换;
- 特征提取:词频特征;词性特征;语法特征;主题特征;N-Gram;TF-IDF特征;
- 文本表示:词袋模型;One-hot;word2vec;Glove;EMLO;Bert;
- 分类模型:机器学习;深度学习;CNN;RNN;Attention;GNN;