斯坦福NLU笔记之情感分析

本文详细探讨了情绪分析的实用技巧,包括分词(如Whitespace tokenizer、Treebank tokenizer和Sentiment-aware tokenizer)、词干化(比较了Porter、Lancaster和WordNet词干分析器)、词性标注在情感判断中的作用,以及简单的否定标记方法。还介绍了Stanford Sentiment Treebank (SST)的基本应用和超参数与分类器比较的重要性。
摘要由CSDN通过智能技术生成

1.情绪分析的一般实用技巧

分词

介绍了三种分词:

Whitespace tokenizer, 就是空格分词。

Treebank tokenizer, 斯坦福大学的树状分词。

Sentiment-aware tokenizer, 情感感知分词器,隔离表情符号,使用基础标记,在看起来有意义的地方保留大写... ...(A good start: nltk.tokenize.casual.TweetTokenizer)

比较:

 

 

词干化

The dangers of stemming:

词干会使不同的词形崩溃;

在情感背景下的三种常见词干算法:the Porter stemmer, the Lancaster stemmer, the WordNet stemmer;

Porter and Lancaster破坏了太多的情感差异;WordNet词干分析器几乎没有这么严重的问题,但通常它带来的价值不足以值得运行它所需的资源。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值