分类:情感分析

这篇博客记录了华盛顿大学Coursera机器学习课程中关于情感分析的内容。通过Amazon产品评价,利用Graphlab Create构建线性分类器判断评论正负。讨论了分类器评价标准,如准确率、多数类分类器,并强调了准确率在数据不平衡情况下的局限性。还探讨了训练数据量与准确率的关系,以及过拟合问题。作业部分提供了代码链接。
摘要由CSDN通过智能技术生成

此课程是Coursera 华盛顿大学开设的Machine Learning 专项的第一部分内容,仅做笔记、学习使用。

背景

通过用户对amazon 产品的评价,通过对评价文本进行分词,建立分类器分辨用户评价属于好评还是差评(不涉及中评)。使用第三方库为Graphlab Create。

线性分类器创建及使用

对于句子进行分词,将带有情感倾向的词语拿出来进行权重(weight), e.g.{‘good’:1,’great’:1.5,’terrible’:-2.1,’awful’:-3.1},计算一个句子中出现的这些词语的个数乘以权重,最后得分大于0,则此句话为积极评价,否则为消极评价,这是一个非常简单的线性分类器。其实,权重如何来?人为设定么?什么又是积极的词?消极的词?由于其是一个概论,并未详细探讨算法。其实流行的还是朴素贝叶斯按照每个词出现的频率算概率。
这里写图片描述

分类器的评价

一个概念:majority class classifier(多数类分类器),就是说假设分类标签有0和1,共有1500个样本,标签1占1000个样本&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值