- 博客(6)
- 资源 (2)
- 收藏
- 关注
原创 非平衡数据处理方式与评估
解决这一问题的基本思路是让正负样本在训练过程中拥有相同的话语权,比如利用采样与加权等方法。为了方便起见,我们把数据集中样本较多的那一类称为“大众类”,样本较少的那一类称为“小众类”。解决方式分为:一、相关方法总结1、采样采样方法是通过对训练集进行处理使其从不平衡的数据集变成平衡的数据集,在大部分情况下会对最终的结果带来提升。采样分为上采样(Oversampling,过采样)和下采样(U...
2020-01-31 17:00:10 925
原创 不平衡样本
对于二分类问题,理想的样本应该是50:50但现实中某些场景就是非平衡数据,如癌症检测(癌症患者在人类总数中总是占非常小的比例),金融欺诈(一般来说大家都是守法尊则的良好公民,欺诈一般占小比例)对于不平衡问题,一般将占比小的分类设为1,如欺诈和患癌症(一)不平衡样本的处理方式:(1)样本采样方面:欠采样(减法)过采样(加法)SMOTE(类似与过采样,区别在于采用算法生成新的样本(一般是...
2020-01-11 15:52:29 409
原创 pandas中read_csv的缺失值处理方式
今天遇到的问题是,要将一份csv数据读入dataframe,但某些列中含有NA值。对于这些列来说,NA应该作为一个有意义的level,而不是缺失值,但read_csv函数会自动将类似的缺失值理解为缺失值并变为NaN。看pandas文档中read_csv函数中这两个参数的描述,默认会将’-1.#IND’, ‘1.#QNAN’, ‘1.#IND’, ‘-1.#QNAN’, ‘#N/A N/A’,’#...
2020-01-03 11:04:04 1027
原创 用于特征选择的F-Score打分及其Python实现
F-Score(非模型评价打分,区别与 F1_score )是一种衡量特征在两类之间分辨能力的方法,通过此方法可以实现最有效的特征选择。最初是由台湾国立大学的Yi-Wei Chen提出的(参考《Combining SVMs with Various Feature Selection Strategies》),公式如下:其中i代表第i个特征,即每一个特征都会有一个F-score。x拔是所有该特...
2020-01-02 01:10:57 11086 17
SAS University Edition:Windows安装指南.pdf
2020-07-15
尚硅谷MySql核心技术.txt
2019-08-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人