实习周报 | 2nd week | 2021.4.12 - 4.16 | Sentiment Analysis, ES语义搜索

1. 工作总结

  • 情感分析常用流程
  • 经典情感分析算法调研 (~ 2014)
  • 基于深度学习的情感分析算法调研 (2014 ~ 2018)
  • 可用情感分析API/ github项目调研
  • ES语义搜索



2. 情感分析常用流程

2.1 数据预处理

2.1.1 分词 Tokenization
  • break a sentence into words, phrases, symbols or other meaningful tokens by removing punctuation marks
  • 常用开源分词工具:
    开源分词工具
2.1.2 停用词消除 stop word removal
  • Stop words do not contribute to analysis and hence are dropped during preprocessing step
2.1.3 词干提取 Stemming

本次任务为中文,不需要这步

2.1.4 词性标注 POS tagging

recognize different parts of speech in the text

2.1.5 特征提取 Feature Extraction
  • motivation:文本数据稀疏,噪声数据多,因此需要特征提取,生成一组新的、较少的特征来表示信息
  • 常用算法如 Latent Semantic Indexing(PCA),LDA等
2.1.6 特征选择 Feature Selection
  • motivation:在原有特征中筛去无用或不相关特征,形成原特征的子集
  • 常用算法如 Pointwise Mutual Information (PMI), chi-square, latent semantic indexing
  • PMI
    • 想量化两个词同时出现的可能性
    • P M I ( a , b ) = l o g ( P ( a , b ) P ( a ) ⋅ P ( b ) ) PMI(a,b) = log(\frac{P(a,b)}{P(a)\cdot P(b)}) PMI(a,b)=log(P(a)P(b)P(a,b)),即a与b的联合概率分布于a和b的概率的乘积的比值
    • 而在情感分析中,他可以拓展为去测量某一情感分类和某个词同时出现的可能性,以此来寻找向性词
    • 同时,他仍然可以衡量两个词之间的关系,若一正向词和目标词的PMI较大,那么有很大的可能性目标词也为正向,或目标词出现时文本更可能是正向
  • Chi-square
    • class i 和 word b可互换
    • 目前为某一情感分类和某个词同时出现的可能性
    • χ i 2 = n ⋅ F ( w ) 2 ⋅ ( p i ( w ) − P i ) 2 F ( w ) ( 1 − F ( w ) ) ⋅ P i ( 1 − P i ) \chi_i^2 = \frac{n\cdot F(w)^2\cdot (p_i(w
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值