一、情感分析的概念:是使用自然语言处理、文本挖掘和计算机语言等方法对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程。
二、情感分析的应用场景
- 电子商务
- 舆情分析
- 市场呼声
- 消费者呼声
三、基于词典的情感分析的工作流程
- 对文档分词,找出文档中的情感词、否定词以及程度副词
- 然后判断每个情感词之前是否有否定词以及程度副词,将它之前的否定词和程度副词划分为一个组,
- 如果有否定词就将情感词的情感权重乘以-1
- 如果有程度副词就乘以程度副词的程度值,最后所有组的得分加起来,大于0的归于正向,小于0的归于负向。
基于机器学习的情感分类,关键在于 特征选择,特征权重量化,分类模型
情感分析的应用有 信息检索,机器翻译,语音识别
情感分析的核心问题是 情感分类
简述文本分类的过程:
定义阶段,数据预处理,特征提取,特征选择,魔性训练,模型测试,模型优化,应用
一、机器学习算法
机器学习的一些基本概念:
监督学习:指利用带有标签(或目标)的训练数据来训练模型,使其能够预测未知数据的标签或结果,包含分类和回归。
无监督学习:指从未标记的数据中学习模式和结构,目标是发现数据中的隐藏结构或分布,而不是预测特定的结果。包含聚类和降维
机器学习的常用分类算法
朴素贝叶斯:假设特征之间相互独立
支持向量机:其基本思想是找到一个最优的超平面来划分不同类别的数据点。SVM通过最大化间隔(margin)来提高泛化能力,即找到能够使得不同类别数据点间距离(margin)最大化的决策边界。
逻辑回归:通过逻辑函数(sigmoid函数)将线性组合的特征映射到[0, 1]之间的概率值,然后根据设定的阈值进行分类决策。
评测指标:
准确率:分对的个数占全部样本数的比例(对的判定为对,错的判定为错)
精确率是确实为正类的类别占分类器预测为正的比例
TP/TP+FP
召回率:确实为正类的占分类器正确预测为正类别的比例
TP/TP+FN
F1测度=2*P*R/(P+R)
文本分类的几个步骤:
1.定义阶段:定义数据一级分类体系,具体分为哪些类别,需要哪些数据。
2.数据预处理:对文档做分词,去停用词等准备工作。
3.数据提取特征:对文档矩阵进行姜维,提取训练集中最有用的特征。
4.模型训练阶段,选择具体的分类模型以及算法,训练处文本分类器。
5.评测阶段:在测试集上测试并评价分类器的性能。
6.应用阶段:应用性能最高的分类模型对待分类文档进行分类。
二、深度学习算法
神经网络:神经网络是一种模仿生物神经系统工作方式的数学模型,由多个神经元(节点)组成的层次结构。每个神经元接收来自前一层神经元的输入,并将其加权求和后通过激活函数得到输出。神经网络一般包括输入层、隐藏层和输出层,其中隐藏层可以有多层,形成深度神经网络。
反向传播算法:反向传播是一种训练神经网络的常用算法,通过计算损失函数对网络参数(权重和偏置)的梯度,并利用梯度下降(或其他优化算法)来更新参数,从而使得网络的预测结果与真实标签尽可能接近。
最优化算法:梯度下降,Adam、Adagrad、RMSProp
- RNN 是一种具有循环连接的神经网络,适用于处理序列数据,如文本、语音、时间序列等。其特点是可以通过时间展开进行信息传递和状态记忆,但长期依赖问题限制了其在长序列上的表现。
- LSTM 是一种特殊的 RNN 变体,设计用来解决 RNN 的长期依赖问题。它通过门控机制(遗忘门、输入门、输出门)有效地控制信息的流动和记忆,从而能够更好地捕捉长期依赖关系。
- Seq2Seq 模型是一种用于处理序列到序列任务的架构,例如机器翻译、语音识别等。它由两个主要部分组成:编码器(Encoder)和解码器(Decoder),通常基于 RNN 或者 LSTM 实现。编码器将输入序列编码成固定长度的向量表示,解码器则将该向量解码为目标序列。
- 注意力机制是一种用于增强模型对输入序列中不同部分重要性的方法。它通过学习每个输入位置的权重,使模型能够聚焦于相关的部分并更好地完成任务。Attention 在 Seq2Seq 模型、图像描述生成等任务中被广泛应用。
- 图说模型是将深度学习和计算机视觉结合,用于自动生成图像描述。它通常基于卷积神经网络(CNN)提取图像特征,然后使用 Seq2Seq 模型(通常包括注意力机制)生成描述语句,使模型能够理解和表达图像内容。