分类：情感分析

最新推荐文章于 2024-06-26 21:30:00 发布

房海朔

最新推荐文章于 2024-06-26 21:30:00 发布

阅读量1.5k

点赞数

分类专栏： coursera机器学习笔记文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36954426/article/details/71105134

版权

这篇博客记录了华盛顿大学Coursera机器学习课程中关于情感分析的内容。通过Amazon产品评价，利用Graphlab Create构建线性分类器判断评论正负。讨论了分类器评价标准，如准确率、多数类分类器，并强调了准确率在数据不平衡情况下的局限性。还探讨了训练数据量与准确率的关系，以及过拟合问题。作业部分提供了代码链接。

摘要由CSDN通过智能技术生成

此课程是Coursera 华盛顿大学开设的Machine Learning 专项的第一部分内容，仅做笔记、学习使用。

背景

通过用户对amazon 产品的评价，通过对评价文本进行分词，建立分类器分辨用户评价属于好评还是差评（不涉及中评）。使用第三方库为Graphlab Create。

线性分类器创建及使用

对于句子进行分词，将带有情感倾向的词语拿出来进行权重（weight), e.g.{‘good’:1,’great’:1.5,’terrible’:-2.1,’awful’:-3.1}，计算一个句子中出现的这些词语的个数乘以权重，最后得分大于0，则此句话为积极评价，否则为消极评价，这是一个非常简单的线性分类器。其实，权重如何来？人为设定么？什么又是积极的词？消极的词？由于其是一个概论，并未详细探讨算法。其实流行的还是朴素贝叶斯按照每个词出现的频率算概率。
这里写图片描述

分类器的评价

一个概念：majority class classifier(多数类分类器)，就是说假设分类标签有0和1，共有1500个样本，标签1占1000个样本&

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。