**
基于词典的情感分析大致步骤如下
**
分解文章段落
分解段落中的句子
分解句子中的词汇
搜索情感词并标注和计数
搜索情感词前的程度词,根据程度大小,赋予不同权值
搜索情感词前的否定词,赋予反转权值(-1)
计算句子的情感得分
计算段落的情感得分
计算文章的情感得分
基于机器学习的情感分析
- 文本结构化
文本向量化
词条权值
特征提取 - 分类算法选择
- 训练模型和评价
预训练方法
1)word2vec
2)ULMFit
3)ELMo
4)Open AI Transformer
中文分词
- 规则分词
正向最大匹配
逆向最大匹配
双向最大匹配 - 统计分词
- 混合分词
- 中文分词工具 Jieba
关键词提取算法
- PageRank
求解网页的重要性就是求解有向图中节点的重要性,或者说节点的权重 - TextRank
TextRank算法构造了一个无向图 - TF-IDF
- 基于语义的中文文本关键词提取(SKE)算法
句法分析
- 基于PCFG的句法分析
- 基于最大最大网隔马尔可夫网络
- 基于CRF句法分析
- 基于移进规约句法分析
文本向量化
- word2vec
- C&w
- CBOW Skip-gram
- doc2vec
自然语言语义相似度计算方法
-
基于向量空间模型的计算方法
-
基于向量空间模型的计算方法
-
基于语义理解的计算方法
词向量技术
词向量的获取方式
基于共现矩阵的方式
SVD(奇异值分解)
- ELMo–动态词向量
- 基于GloVe词向量的“技术