机器学习与数据分析
文章平均质量分 96
atwdy
大数据开发、数据挖掘
展开
-
分类模型评估:混淆矩阵与ROC曲线
理解混淆矩阵和ROC曲线之前,先明确几个概念。对于分类问题,不论是多分类还是二分类,对于某个关注类来说,都可以看成是二分类问题,当前的这个关注类为正类,所有其他非关注类为负类。从上面几个定义可以知道:1)样本总数 = TP+FP+TN+FN2)所有真实值为正类的样本总数 = TP+FN3)所有真实值为负类的样本总数 = TN+FP。原创 2024-03-25 01:31:08 · 1989 阅读 · 0 评论 -
数据分析中常用的指标或方法
当有重复值时,一般采用平均顺序作为所有重复x值的顺序号,例如[1, 1, 1, 2, 3],1的顺序编号为(1+2+3)/3,均为2。对应的顺序号为[2, 2, 2, 4, 5],经过验证在pandas的corr方法中采用的就是平均顺序计算。皮尔逊系数的值域范围为[-1, 1],不受量纲的影响。斯皮尔曼系数的计算和皮尔逊系数相同,唯一区别只是将皮尔逊系数中的原始值替换为了原始值所对应的秩(顺序编号)。方差用来衡量随机变量离其期望值的分散程度,标准差在方差的基础上消除了量纲的影响。原创 2024-01-16 13:11:28 · 1396 阅读 · 0 评论