2.27聚类

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
存储
在这里插入图片描述
tab+shift 查询函数解释
在这里插入图片描述

在这里插入图片描述

os.path.abspath(“相对入境名”)

转集合去重法
在这里插入图片描述
数据groupby与统计函数并用
在这里插入图片描述

.loc['test']['id']
.loc['test'.pd.IndexSlice['id',:]]  多重索引

聚类

框架:模型X算法X策略

1、lasso L1

数值类型研究哪个模型更合适

采用误差度量(平方和),因为误差越小越接近

而离散数据用准确率来描述

2.非离散数据准确采用 ppe作为准确率,

PPE10 >80%预测误差不超过10%记录占80%

3.回归(有监督):线性回归,岭回归,lasso回归,回归树,因变量为数值型
算法:最小二乘,梯度
4.回归模型评估:
1)误差平方和 R^2 越高越好(关系强度)一般大于0.8
2)PPE(PPE10~15) 业务上做解释
abs(误差)/真实值<0.1 就准确
5.分类器:朴素贝叶斯,逻辑回归,决策树,随机森林,GBDT,XGBOOST,stacing,knn svm 因变量为分类数据
6.分类器模型评估:
准确率,
精确率(失衡数据看),

召回率(失衡数据看),
f1,
AUC,  roc曲线下面积(0.85)

7.roc曲线
调阈值–默认阈值为0.5,
X-召回tpr,y-假阳fpr
8.聚类:无监督(数据分组) rfm

在这里插入图片描述

在这里插入图片描述

综合分析法:
1标准化
2优化矩阵(给权重,主成分)
3算综合得分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

聚类算法,用距离刻画样本之间的相似性,距离越近越相似,
刻画样本间的距离

欧式距离:
二者的各特征之差的和的平方的开方
曼哈顿:
两着的各特征之差的绝对值之和
闵可夫斯基
在这里插入图片描述
相似度,皮尔逊相关系数

两条记录的协方差除以两条记录的

sum((x-xbar)*(y-ybar)

x-1
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
对称数据:msc计算:混淆矩阵
smc=(b+c)/(a+b+c+d)
在这里插入图片描述
非对称数据(各特征权重不一样)相比上面分母去除d:
jc jc=(b+c)/(a+b+c)
运用场景:两种取值重要程度有差异,如检查,

在这里插入图片描述

多值型距离计算
简单匹配法

在这里插入图片描述
案例
在这里插入图片描述

方法1: 简单匹配法
d=(d-u)/d
u表示相同项数

方法二:化为二值型(one_hot)–亚元化–虚拟化

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
混合型距离计算

混合型距离计算

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Captain_Data

打赏一下~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值