样本不均衡处理及采样方法

MusicDancing

已于 2024-01-21 15:45:45 修改

阅读量873

点赞数

分类专栏：机器学习文章标签：机器学习推荐系统

于 2021-02-18 16:02:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MusicDancing/article/details/113848200

版权

机器学习专栏收录该内容

38 篇文章 4 订阅

订阅专栏

1. 样本不均衡问题

通常分类机器学习任务期望每种类别的样本是均衡的，即不同目标值样本的总量接近相同。在梯度下降过程中，不同类别的样本量有较大差异时，很难收敛到最优解。

会导致模型泛化能力大大降低，对比例大的样本造成过拟合，预测偏向样本数较多的分类。

1.1 对负样本采样应遵循的原则

1. 对每个用户，要保证正负样本的平衡(数目相似)。

如点击问题，对于经常无行为(不点击)的用户，尽量少采样。

2. 对每个用户采样负样本时，要选取那些很热门，而用户却没有行为的物品。

一般认为，很热门而用户却没有行为更加代表用户对这个物品不感兴趣。因为对于冷门的物品，用户可能压根没在网站中发现这个物品，所以谈不上是否感兴趣。

2. 样本不均衡

2.1 采样算法

2.1.1 欠采样(undersampling)

又叫下采样，减少样本数较多的样本，采用丢弃或选取部分样本的方法。但若随机丢弃负样本，可能丢失一些重要信息（导致模型只学习到总体模式的一部分）。其代表性算法为EasyEnsemble。

2.1.2 过采样(oversampling)

又叫上采样，增加少数样本，比较常见的方法有：

1. 随机过采样：将现有样本简单复制，这样训练得到的模型泛化能力通常较差，会导致过拟合；可以加入轻微的随机扰动。

2. SMOTE算法

少数类别过采样技术，是一种用于合成少数类样本的过采样技术，通过对训练集中的正例进行插值来产生额外的正例。

对少数类样本进行分析，然后在现有少数类样本之间进行插值，人工合成新样本，并将新样本添加到数据集中进行训练。

2.1.3 数据合成

合成少数类样本，组合已有样本特征(从各个feature中随机选出一个已有值，拼接成一个新样本)，产生新样本。代表性方法是SMOTE，在相似样本中进行特征的随机选择并拼接出新样本。

2.1.4 增大少数类样本权重

当少数类样本被误分时，其损失值要乘上相应的权重，从而让分类器更加关注这一类数目较少的样本。

2.2 半监督学习

2.3 代价敏感

通常对少数类样本进行加权处理，使得模型进行均衡训练。代价敏感加权增大了负样本在模型中的贡献，但没有为模型引入新的信息，既没有解决选择偏误的问题，也没有带来负面影响。

类权重计算方法如下：weight = 样本数/(类别数量 X 每个类别样本的数量)

通过参数class_weight = 'balanced' 调整正负样本的权重，可以使得正负样本总权重相同，模型KS有5%左右的提升。

2.4 模型角度

1. EasyEnsemble

利用集成学习机制，将负样本划分成为若干个集合供不同学习器使用。这样对每个学习器来看都进行了欠采样，但在全局来看却不会丢失重要信息。

2. BalanceCascade

利用增量训练的思想Boosting，先通过一次下采样产生训练集，训练一个分类器，对于那些分类正确的大众样本不放回，然后对这个更小的大众类样本下采样产生训练集，训练第二个分类器，以此类推，最终组合所有分类器的结果得到最终结果。

3. NearMiss

利用KNN挑选那些最具代表性的大众样本(计算量很大)。

2.5 阈值移动(threshold-moving)

基于原始训练集进行学习，但在用训练好的分类器进行预测时，将下面公式嵌入到其决策过程中，称为“阈值移动”。

y为阈值，

这个公式也是类别不均衡学习的一个基本策略-------再缩放（rescaling）

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
样本不均衡处理及采样方法

1. 对负样本采样应遵循原则：（1）对每个用户，要保证正负样本的平衡（数目相似）。（2）对每个用户采样负样本时，要选取那些很热门，而用户却没有行为的物品。一般认为，很热门而用户却没有行为更加代表用户对这个物品不感兴趣。因为对于冷门的物品，用户可能压根没在网站中发现这个物品，所以谈不上是否感兴趣。...
复制链接

扫一扫

专栏目录

MusicDancing CSDN认证博客专家 CSDN认证企业博客

码龄4年

314: 原创

1万+: 周排名

1万+: 总排名

39万+: 访问

: 等级

4063: 积分

1668: 粉丝

514: 获赞

70: 评论

1369: 收藏

私信

关注

热门文章

分类专栏

FK学习 22篇
用户画像 4篇
hive 14篇
深度学习 22篇
机器学习 38篇
pandas 10篇
读书笔记 4篇
机器学习工程 8篇
python 28篇
spark 17篇
linux 23篇
docker 3篇
强化学习 6篇
广告&推荐 8篇
大数据开发 10篇
mac 3篇
设备指纹 5篇
数据库 7篇
数据 8篇
诗词 5篇
图像处理 3篇
数据结构 20篇
pytorch 15篇
nlp 7篇
tensorflow 2篇
scala 6篇
pyspark 5篇
java 5篇

最新评论

hive json字段解析
m0_61432255: hive解析json高级案例实战：https://www.cnblogs.com/LIAOBO/p/16242061.html
Hive 中的window函数
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
一些基础知识FK
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
一些基础知识FK
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
中国省份、城市-身份证编码
2401_83957924: 110101,东城区 110102,西城区 110105,朝阳区 110106,丰台区 110107,石景山区 110108,海淀区 110109,门头沟区 110111,房山区 110112,通州区 110113,顺义区 110114,昌平区 110115,大兴区 110116,怀柔区 110117,平谷区 110118,密云区 110119,延庆区 120000,天津 120101,和平区 120102,河东区 120103,河西区 120104,南开区 120105,河北区 120106,红桥区 120110,东丽区 120111,西青区 120112,津南区 120113,北辰区 120114,武清区 120115,宝坻区 120116,滨海新区 120117,宁河区 120118,静海区 120119,蓟州区 130000,河北省 130100,石家庄 130102,长安区 130104,桥西区 130105,新华区 130107,井陉矿区 130108,裕华区 130109,藁城区 130110,鹿泉区 130111,栾城区 130121,井陉县 130123,正定县 130125,行唐县 130126,灵寿县 130127,高邑县 130128,深泽县 130129,赞皇县 130130,无极县 130131,平山县 130132,元氏县 130133,赵县 130181,辛集 130183,晋州 130184,新乐 130200,唐山 130202,路南区 130203,路北区 130204,古冶区 130205,开平区 130207,丰南区 130208,丰润区 130209,曹妃甸区 130224,滦南县 130225,乐亭县 130227,迁西县 130229,玉田县 130281,遵化 130283,迁安 130284,滦州 130300,秦皇岛 130302,海港区 130303,山海关区 130304,北戴河区 130306,抚宁区 130321,青龙满族自治县 130322,昌黎县 130324,卢龙县 130400,邯郸 130402,邯山区 130403,丛台区 130404,复兴区 130406,峰峰矿区 130407,肥乡区 130408,永年区 130423,临漳县 130424,成安县 130425,大名县 130426,涉县 130427,磁县 130430,邱县 130431,鸡泽县 130432,广平县 130433,馆陶县 130434,魏县 130435,曲周县 130481,武安 130500,邢台 130502,桥东区 130503,桥西区 130521,邢台县 130522,临城县 130523,内丘县 130524,柏乡县 130525,隆尧县 130526,任县 130527,南和县 130528,宁晋县 130529,巨鹿县 130530,新河县 130531,广宗县 130532,平乡县 130533,威县 130534,清河县 130535,临西县 130581,南宫 130582,沙河 130600,保定 130602,竞秀区 130606,莲池区 130607,满城区 130608,清苑区 130609,徐水区 130623,涞水县 130624,阜平县 130626,定兴县 130627,唐县 130628,高阳县 130629,容城县 130630,涞源县 130631,望都县 130632,安新县 130633,易县 130634,曲阳县 130635,蠡县 130636,顺平县 130637,博野县 130638,雄县 130681,涿州 130682,定州 130683,安国 130684,高碑店 130700,张家口 130702,桥东区 130703,桥西区 130705,宣化区 130706,下花园区 130708,万全区 130709,崇礼区 130722,张北县 130723,康保县 130724,沽源县 130725,尚义县 130726,蔚县 130727,阳原县 130728,怀安县 130730,怀来县 130731,涿鹿县 130732,赤城县 130800,承德 130802,双桥区 130803,双滦区 130804,鹰手营子矿区 130821,承德县 130822,兴隆县 130824,滦平县 130825,隆化县 130826,丰宁满族自治县 130827,宽城满族自治县 130828,围场满族蒙古族自治县 130881,平泉 130900,沧州 130902,新华区 130903,运河区 130921,沧县 130922,青县 130923,东光县 130924,海兴县 130925,盐山县 130926,肃宁县 130927,南皮县 130928,吴桥县 130929,献县 130930,孟村回族自治县 130981,泊头 130982,任丘 130983,黄骅 130984,河间 131000,廊坊 131002,安次区 131003,广阳区 131022,固安县 131023,永清县 131024,香河县 131025,大城县 131026,文安县 131028,大厂回族自治县 131081,霸州 131082,三河 131100,衡水 131102,桃城区 131103,冀州区 131121,枣强县 131122,武邑县 131123,武强县 131124,饶阳县 131125,安平县 131126,故城县 131127,景县 131128,阜城县 131182,深州 140000,山西省 140100,太原 140105,小店区 140106,迎泽区 140107,杏花岭区 140108,尖草坪区 140109,万柏林区 140110,晋源区 140121,清徐县 140122,阳曲县 140123,娄烦县 140181,古交 140200,大同 140212,新荣区 140213,平城区 140214,云冈区 140215,云州区 140221,阳高县 140222,天镇县 140223,广灵县 140224,灵丘县 140225,浑源县 140226,左云县 140300,阳泉 140302,城区 140303,矿区 140311,郊区 140321,平定县 140322,盂县 140400,长治 140403,潞州区 140404,上党区 140405,屯留区 140406,潞城区 140423,襄垣县 140425,平顺县 140426,黎城县 140427,壶关县 140428,长子县 140429,武乡县 140430,沁县 140431,沁源县 140500,晋城 140502,城区 140521,沁水县 140522,阳城县 140524,陵川县 140525,泽州县 140581,高平 140600,朔州 140602,朔城区 140603,平鲁区 140621,山阴县 140622,应县 140623,右玉县 140681,怀仁 140700,晋中 140702,榆次区 140703,太谷区 140721,榆社县 140722,左权县 140723,和顺县 140724,昔阳县 140725,寿阳县 140727,祁县 140728,平遥县 140729,灵石县 140781,介休 140800,运城 140802,盐湖区 140821,临猗县 140822,万荣县 140823,闻喜县 140824,稷山县 140825,新绛县 140826,绛县 140827,垣曲县 140828,夏县 140829,平陆县 140830,芮城县 140881,永济 140882,河津 140900,忻州 140902,忻府区 140921,定襄县 140922,五台县 140923,代县 140924,繁峙县 140925,宁武县 140926,静乐县 140927,神池县 140928,五寨县 140929,岢岚县 140930,河曲县 140931,保德县 140932,偏关县 140981,原平 141000,临汾 141002,尧都区 141021,曲沃县 141022,翼城县 141023,襄汾县 141024,洪洞县 141025,古县 141026,安泽县 141027,浮山县 141028,吉县 141029,乡宁县 141030,大宁县 141031,隰县 141032,永和县 141033,蒲县 141034,汾西县 141081,侯马 141082,霍州 141100,吕梁 141102,离石区 141121,文水县 141122,交城县 141123,兴县 141124,临县 141125,柳林县 141126,石楼县 141127,岚县 141128,方山县 141129,中阳县 141130,交口县 141181,孝义 141182,汾阳 150000,内蒙古自治区 150100,呼和浩特 150102,新城区 150103,回民区 150104,玉泉区 150105,赛罕区 150121,土默特左旗 150122,托克托县 150123,和林格尔县 150124,清水河县 150125,武川县 150200,包头 150202,东河区 150203,昆都仑区 150204,青山区 150205,石拐区 150206,白云鄂博矿区 150207,九原区 150221,土默特右旗 150222,固阳县 150223,达尔罕茂明安联合旗 150300,乌海 150302,海勃湾区 150303,海南区 150304,乌达区 150400,赤峰 150402,红山区 150403,元宝山区 150404,松山区 150421,阿鲁科尔沁旗 150422,巴林左旗 150423,巴林右旗 150424,林西县 150425,克什克腾旗 150426,翁牛特旗 150428,喀喇沁旗 150429,宁城县 150430,敖汉旗 150500,通辽 150502,科尔沁区 150521,科尔沁左翼中旗 150522,科尔沁左翼后旗 150523,开鲁县 150524,库伦旗 150525,奈曼旗 150526,扎鲁特旗 150581,霍林郭勒 150600,鄂尔多斯 150602,东胜区 150603,康巴什区 150621,达拉特旗 150622,准格尔旗 150623,鄂托克前旗 150624,鄂托克旗 150625,杭锦旗 150626,乌审旗 150627,伊金霍洛旗 150700,呼伦贝尔 150702,海拉尔区 150703,扎赉诺尔区 150721,阿荣旗 150722,莫力达瓦达斡尔族自治旗 150723,鄂伦春自治旗 150724,鄂温克族自治旗 150725,陈巴尔虎旗 150726,新巴尔虎左旗 150727,新巴尔虎右旗 150781,满洲里 150782,牙克石 150783,扎兰屯 150784,额尔古纳 150785,根河 150800,巴彦淖尔 150802,临河区 150821,五原县 150822,磴口县 150823,乌拉特前旗 150824,乌拉特中旗 150825,乌拉特后旗 150826,杭锦后旗 150900,乌兰察布 150902,集宁区 150921,卓资县 150922,化德县 150923,商都县 150924,兴和县 150925,凉城县 150926,察哈尔右翼前旗 150927,察哈尔右翼中旗 150928,察哈尔右翼后旗 150929,四子王旗 150981,丰镇 152200,兴安盟 152201,乌兰浩特 152202,阿尔山 152221,科尔沁右翼前旗 152222,科尔沁右翼中旗 152223,扎赉特旗 152224,突泉县 152500,锡林郭勒盟 152500,锡林郭勒 152501,二连浩特 152502,锡林浩特 152522,阿巴嘎旗 152523,苏尼特左旗 152524,苏尼特右旗 152525,东乌珠穆沁旗 152526,西乌珠穆沁旗 152527,太仆寺旗 152528,镶黄旗 152529,正镶白旗 152530,正蓝旗 152531,多伦县 152900,阿拉善盟 152900,阿拉善 152921,阿拉善左旗 152922,阿拉善右旗 152923,额济纳旗 210000,辽宁省 210100,沈阳 210102,和平区 210103,沈河区 210104,大东区 210105,皇姑区 210106,铁西区 210111,苏家屯区 210112,浑南区 210113,沈北新区 210114,于洪区 210115,辽中区 210123,康平县 210124,法库县 210181,新民 210200,大连 210202,中山区 210203,西岗区 210204,沙河口区 210211,甘井子区 210212,旅顺口区 210213,金州区 210214,普兰店区 210224,长海县 210281,瓦房店 210283,庄河 210300,鞍山 210302,铁东区 210303,铁西区 210304,立山区 210311,千山区 210321,台安县 210323,岫岩满族自治县 210381,海城 210400,抚顺 210402,新抚区 210403,东洲区 210404,望花区 210411,顺城区 210421,抚顺县 210422,新宾满族自治县 210423,清原满族自治县 210500,本溪 210502,平山区 210503,溪湖区 210504,明山区 210505,南芬区 210521,本溪满族自治县 210522,桓仁满族自治县 210600,丹东 210602,元宝区 210603,振兴区 210604,振安区 210624,宽甸满族自治县 210681,东港 210682,凤城 210700,锦州 210702,古塔区 210703,凌河区 210711,太和区 210726,黑山县 210727,义县 210781,凌海 210782,北镇 210800,营口 210802,站前区 210803,西区 210804,鲅鱼圈区 210811,老边区 210881,盖州 210882,大石桥 210900,阜新 210902,海州区 210903,新邱区 210904,太平区 210905,清河门区 210911,细河区 210921,阜新蒙古族自治县 210922,彰武县 211000,辽阳 211002,白塔区 211003,文圣区 211004,宏伟区 211005,弓长岭区 211011,太子河区 211021,辽阳县 211081,灯塔 211100,盘锦 211102,双台子区 211103,兴隆台区 211104,大洼区 211122,盘山县 211200,铁岭 211202,银州区 211204,清河区 211221,铁岭县 211223,西丰县 211224,昌图县 211281,调兵山 211282,开原 211300,朝阳 211302,双塔区 211303,龙城区 211321,朝阳县 211322,建平县 211324,喀喇沁左翼蒙古族自治县 211381,北票 211382,凌源 211400,葫芦岛 211402,连山区 211403,龙港区 211404,南票区 211421,绥中县 211422,建昌县 211481,兴城 220000,吉林省 220100,长春 220102,南关区 220103,宽城区 220104,朝阳区 220105,二道区 220106,绿园区 220112,双阳区 220113,九台区 220122,农安县 220182,榆树 220183,德惠 220200,吉林 220200,吉林市 220202,昌邑区 220203,龙潭区 220204,船营区 220211,丰满区 220221,永吉县 220281,蛟河 220282,桦甸 220283,舒兰 220284,磐石 220300,四平 220302,铁西区 220303,铁东区 220322,梨树县 220323,伊通满族自治县 220381,公主岭 220382,双辽 220400,辽源 220402,龙山区 220403,西安区 220421,东丰县 220422,东辽县 220500,通化 220502,东昌区 220503,二道江区 220521,通化县 220523,辉南县 220524,柳河县 220581,梅河口 220582,集安 220600,白山 220602,浑江区 220605,江源区 220621,抚松县 220622,靖宇县 220623,长白朝鲜族自治县 220681,临江 220700,松原 220702,宁江区 220721,前郭尔罗斯蒙古族自治县 220722,长岭县 220723,乾安县 220781,扶余 220800,白城 220802,洮北区 220821,镇赉县 220822,通榆县 220881,洮南 220882,大安 222400,延边朝鲜族自治州 222400,延边 222401,延吉 222402,图们 222403,敦化 222404,珲春 222405,龙井 222406,和龙 222424,汪清县 222426,安图县 230000,黑龙江省 230100,哈尔滨 230102,道里区 230103,南岗区 230104,道外区 230108,平房区 230109,松北区 230110,香坊区 230111,呼兰区 230112,阿城区 230113,双城区 230123,依兰县 230124,方正县 230125,宾县 230126,巴彦县 230127,木兰县 230128,通河县 230129,延寿县 230183,尚志 230184,五常 230200,齐齐哈尔 230202,龙沙区 230203,建华区 230204,铁锋区 230205,昂昂溪区 230206,富拉尔基区 230207,碾子山区 230208,梅里斯达斡尔族区 230221,龙江县 230223,依安县 230224,泰来县 230225,甘南县 230227,富裕县 230229,克山县 230230,克东县 230231,拜泉县 230281,讷河 230300,鸡西 230302,鸡冠区 230303,恒山区 230304,滴道区 230305,梨树区 230306,城子河区 230307,麻山区 230321,鸡东县 230381,虎林 230382,密山 230400,鹤岗 230402,向阳区 230403,工农区 230404,南山区 230405,兴安区 230406,东山区 230407,兴山区 230421,萝北县 230422,绥滨县 230500,双鸭山 230502,尖山区 230503,岭东区 230505,四方台区 230506,宝山区 230521,集贤县 230522,友谊县 230523,宝清县 230524,饶河县 230600,大庆 230602,萨尔图区 230603,龙凤区 230604,让胡路区 230605,红岗区 230606,大同区 230621,肇州县 230622,肇源县 230623,林甸县 230624,杜尔伯特蒙古族自治县 230700,伊春 230717,伊美区 230718,乌翠区 230719,友好区 230722,嘉荫县 230723,汤旺县 230724,丰林县 230725,大箐山县 230726,南岔县 230751,金林区 230781,铁力 230800,佳木斯 230803,向阳区 230804,前进区 230805,东风区 230811,郊区 230822,桦南县 230826,桦川县 230828,汤原县 230881,同江 230882,富锦 230883,抚远 230900,七台河 230902,新兴区 230903,桃山区 230904,茄子河区 230921,勃利县 231000,牡丹江 231002,东安区 231003,阳明区 231004,爱民区 231005,西安区 231025,林口县 231081,绥芬河 231083,海林 231084,宁安 231085,穆棱 231086,东宁 231100,黑河 231102,爱辉区 231123,逊克县 231124,孙吴县 231181,北安 231182,五大连池 231183,嫩江 231200,绥化 231202,北林区 231221,望奎县 231222,兰西县 231223,青冈县 231224,庆安县 231225,明水县 231226,绥棱县 231281,安达 231282,肇东 231283,海伦 232700,大兴安岭地区 232700,大兴安岭 232701,漠河 232721,呼玛县 232722,塔河县 310000,上海 310101,黄浦区 310104,徐汇区 310105,长宁区 310106,静安区 310107,普陀区 310109,虹口区 310110,杨浦区 310112,闵行区 310113,宝山区 310114,嘉定区 310115,浦东新区 310115,浦东 310116,金山区 310117,松江区 310118,青浦区 310120,奉贤区 310151,崇明区 320000,江苏省 320100,南京 320102,玄武区 320104,秦淮区 320105,建邺区 320106,鼓楼区 320111,浦口区 320113,栖霞区 320114,雨花台区 320115,江宁区 320116,六合区 320117,溧水区 320118,高淳区 320200,无锡 320205,锡山区 320206,惠山区 320211,滨湖区 320213,梁溪区 320214,新吴区 320281,江阴 320282,宜兴 320300,徐州 320302,鼓楼区 320303,云龙区 320305,贾汪区 320311,泉山区 320312,铜山区 320321,丰县 320322,沛县 320324,睢宁县 320381,新沂 320382,邳州 320400,常州 320402,天宁区 320404,钟楼区 320411,新北区 320412,武进区 320413,金坛区 320481,溧阳 320500,苏州 320505,虎丘区 320506,吴中区 320507,相城区 320508,姑苏区 320509,吴江区 320581,常熟 320582,张家港 320583,昆山 320585,太仓 320600,南通 320602,崇川区 320611,港闸区 320612,通州区 320623,如东县 320681,启东 320682,如皋 320684,海门 320685,海安 320700,连云港 320703,连云区 320706,海州区 320707,赣榆区 320722,东海县 320723,灌云县 320724,灌南县 320800,淮安 320803,淮安区 320804,淮阴区 320812,清江浦区 320813,洪泽区 320826,涟水县 320830,盱眙县 320831,金湖县 320900,盐城 320902,亭湖区 320903,盐都区 320904,大丰区 320921,响水县 320922,滨海县 320923,阜宁县 320924,射阳县 320925,建湖县 320981,东台 321000,扬州 321002,广陵区 321003,邗江区 321012,江都区 321023,宝应县 321081,仪征 321084,高邮 321100,镇江 321102,京口区 321111,润州区 321112,丹徒区 321181,丹阳 321182,扬中 321183,句容 321200,泰州 321202,海陵区 321203,高港区 321204,姜堰区

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。