
机器学习与数据分析
文章平均质量分 96
atwdy
大数据开发、数据挖掘
展开
-
【决策树】分类属性的选择
实现决策树算法最关键的一点就是如何从所有的特征属性中选择一个最优的属性对样本进行分类,。原创 2025-03-03 17:27:04 · 705 阅读 · 0 评论 -
理解梯度下降
开始可以随机化一个点x=10,该点处导数=20,表示x=10这个点处函数值的趋势是增加的,且这种趋势的增长速率是20,因此需要调小x的值才更可能找到较小的函数值。导数本身的值可以满足这种需求,但是直接以导数本身来调也不合适,比如在x=10的点处,按照导数值本身来调的话新的x值=10-2x10=-10,此时x位置跑到对称的另一边了,该点x=-10处导数值为-20,表示函数在这个地方是减少的,需要调大x的值,继续迭代下一个新的x值又回到了x=10处,一直会来回震荡,永远找不到最低点。原创 2024-11-22 19:26:48 · 1106 阅读 · 0 评论 -
分类模型评估:混淆矩阵与ROC曲线
理解混淆矩阵和ROC曲线之前,先明确几个概念。对于分类问题,不论是多分类还是二分类,对于某个关注类来说,都可以看成是二分类问题,当前的这个关注类为正类,所有其他非关注类为负类。从上面几个定义可以知道:1)样本总数 = TP+FP+TN+FN2)所有真实值为正类的样本总数 = TP+FN3)所有真实值为负类的样本总数 = TN+FP。原创 2024-03-25 01:31:08 · 2327 阅读 · 0 评论 -
数据分析中常用的指标或方法
当有重复值时,一般采用平均顺序作为所有重复x值的顺序号,例如[1, 1, 1, 2, 3],1的顺序编号为(1+2+3)/3,均为2。对应的顺序号为[2, 2, 2, 4, 5],经过验证在pandas的corr方法中采用的就是平均顺序计算。皮尔逊系数的值域范围为[-1, 1],不受量纲的影响。斯皮尔曼系数的计算和皮尔逊系数相同,唯一区别只是将皮尔逊系数中的原始值替换为了原始值所对应的秩(顺序编号)。方差用来衡量随机变量离其期望值的分散程度,标准差在方差的基础上消除了量纲的影响。原创 2024-01-16 13:11:28 · 1651 阅读 · 0 评论