不平衡语料的分类

最新推荐文章于 2021-11-12 15:58:53 发布

JERRYFY007

最新推荐文章于 2021-11-12 15:58:53 发布

阅读量1.8k

点赞数 1

分类专栏：历史博客

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JERRYFY007/article/details/72904257

版权

历史博客专栏收录该内容

8 篇文章 0 订阅

订阅专栏

当对商品评论的文本进行情感分析时，一般假设参与分类的正类样本和负类样本一样多，而假设和实际情况并不相符，在实际收集的产品评论语料中，我们发现正类样本和负类样本差距很大，即类别之间的语料数目相差很大。

类别之间的语料数目不平衡是制约很多分类算法准确率的一个因素。很多分类器分类的时候都会倾向于将语料分为大类，因此造成分类的准确率降低。然而很多时候哪些少数类才是值得我们关注的。例如，网络攻击，信用卡非法交易等，信用卡非法交易属于少类，现实生活中少数类往往是比多数类有价值的。

针对不平衡数据，我们往往从数据和算法两个层面来进行处理：
1.数据层面：

a) 上采样。增加少类的样本数，可以直接随机重复已有样本，也可以按照一定规则合成少数类数据。

b) 下采样。随机减少多数类样本的数量。

2.算法层面：

Weighted loss function，一个处理非平衡数据常用的方法就是设置损失函数的权重，使得少数类判别错误的损失大于多数类判别错误的损失。在python的sk-learn中我们可以使用class_weight参数来设置权重，提高少数类权重，例如设置为多数类的10倍。

正负样本不均衡处理方法：

1）当正样本>>负样本，且量都挺大==》下采样(对正样本采样)

2）当正样本>>负样本，量不大==》

a) 采集更多的数据

b) 上采样

c) 修改损失函数（负样本前给权重，照顾负样本）。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
不平衡语料的分类

当对商品评论的文本进行情感分析时，一般假设参与分类的正类样本和负类样本一样多，而假设和实际情况并不相符，在实际收集的产品评论语料中，我们发现正类样本和负类样本差距很大，即类别之间的语料数目相差很大。类别之间的语料数目不平衡是制约很多分类算法准确率的一个因素。很多分类器分类的时候都会倾向于将语料分为大类，因此造成分类的准确率降低。然而很多时候哪些少数类才是值得我们关注的。例如，网络
复制链接

扫一扫

专栏目录

JERRYFY007 CSDN认证博客专家 CSDN认证企业博客

码龄9年

33: 原创

16万+: 周排名

98万+: 总排名

2万+: 访问

: 等级

534: 积分

3: 粉丝

9: 获赞

8: 评论

5: 收藏

私信

关注

热门文章

分类专栏

最新评论

使用Windows版CRF++时import CRFPP出错解决过程
qq_39674559: 楼主上面的文件有没有具体复制的路径，比如crfpp.h复制到哪里去
使用Windows版CRF++时import CRFPP出错解决过程
qq_26103019: 楼主好想问下下载了crf++ win32包后怎么使用python安装呢？？文件里没有python子目录啊
使用Windows版CRF++时import CRFPP出错解决过程
kill 回复 JERRYFY007: 大哥，又报错了。DLL相关的错误。麻烦把生成的CRFPP相关的文件都发我下吧。万分感谢。
使用Windows版CRF++时import CRFPP出错解决过程
JERRYFY007 回复 kill: 链接：https://pan.baidu.com/s/1c3acNjq 密码：daxp 你试试这个行不行，注意这个文件的存放路径，放在Anaconda2_32bit\lib\site-packages\下,这是Anaconda2的安装目录，如果不行，你再仔细试下上面的流程吧，结合其他网友的评论。
使用Windows版CRF++时import CRFPP出错解决过程
kill 回复 devilye3: 请问可以发一下_CRFPP文件吗？我编译失败。提示el.exe缺失，搞了一周了。谢谢：liushaohan01@126.com

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。