实习周报 | 2nd week | 2021.4.12 - 4.16 | Sentiment Analysis, ES语义搜索

最新推荐文章于 2024-03-15 18:58:57 发布

Endlessio

最新推荐文章于 2024-03-15 18:58:57 发布

阅读量444

点赞数

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41615319/article/details/115619908

版权

1. 工作总结

情感分析常用流程
经典情感分析算法调研（~ 2014）
基于深度学习的情感分析算法调研（2014 ~ 2018）
可用情感分析API/ github项目调研
ES语义搜索

2. 情感分析常用流程

2.1 数据预处理

2.1.1 分词 Tokenization

break a sentence into words, phrases, symbols or other meaningful tokens by removing punctuation marks
常用开源分词工具：

2.1.2 停用词消除 stop word removal

Stop words do not contribute to analysis and hence are dropped during preprocessing step

2.1.3 词干提取 Stemming

本次任务为中文，不需要这步

2.1.4 词性标注 POS tagging

recognize different parts of speech in the text

2.1.5 特征提取 Feature Extraction

motivation：文本数据稀疏，噪声数据多，因此需要特征提取，生成一组新的、较少的特征来表示信息
常用算法如 Latent Semantic Indexing（PCA），LDA等

2.1.6 特征选择 Feature Selection

motivation：在原有特征中筛去无用或不相关特征，形成原特征的子集
常用算法如 Pointwise Mutual Information (PMI), chi-square, latent semantic indexing
PMI
- 想量化两个词同时出现的可能性
- $log(\frac{P(a,b)}{P(a)\cdot P(b)})$ ，即a与b的联合概率分布于a和b的概率的乘积的比值
- 而在情感分析中，他可以拓展为去测量某一情感分类和某个词同时出现的可能性，以此来寻找向性词
- 同时，他仍然可以衡量两个词之间的关系，若一正向词和目标词的PMI较大，那么有很大的可能性目标词也为正向，或目标词出现时文本更可能是正向
Chi-square
- class i 和 word b可互换
- 目前为某一情感分类和某个词同时出现的可能性
- $\chi_i^2 = \frac{n\cdot F(w)^2\cdot (p_i(w$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实习周报 | 2nd week | 2021.4.12 - 4.16 | Sentiment Analysis, ES语义搜索

1. 工作总结情感分析常用流程经典情感分析算法调研（~ 2014）基于深度学习的情感分析算法调研（2014 ~ 2018）可用情感分析API/ github项目调研 ES语义搜索2. 情感分析常用流程2.1 数据预处理2.1.1 分词 Tokenizationbreak a sentence into words, phrases, symbols or other meaningful tokens by removing punctuation marks常用开
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。