机器学习算法 08 聚类(01 聚类的本质_求相似度方式_余弦距离)

聚类和降维是机器学习无监督问题的一类任务:

一  聚类的常见用途

知识发现 发现事物之间的潜在关系
      通过聚类:发现样本之间的相似性,也就是分组。
异常值检测
      首先对样本进行聚类分组以后,我们即可求出各组的中心点,如果一个新的样本距离各中心点都比较远,那么我们就可以定义为它为异常值。
特征提取 数据压缩的例子
特征提取:假设我们已经将原有数据集进行了聚类,那么我们就可将聚类后的类ID当成一个新的维度,作为特征。
数据压缩:图片处理重将聚类后的结果当作一个像素点处理,起到数据压缩的效果。

二 回顾有监督机器学习&无监督机器学习

给定训练集 X 和 标签Y
选择模型
• 学习(目标函数的最优化) - >生成模型(本质上是一组参数
根据生成的一组参数进行预测、 分类等任务

无监督机器学习

• 拿到的数据只有X ,没有标签 只根据X的相似程度做一些事情
Clustering 聚类
        • 对于大量未标注的数据集 按照内在相似性来分为多个类别(簇),
        目标:类别内相似度大,类别间相似小
         • 也可以用来改变数据的维度,可以将聚类结果作为一个维度添加到训练 集中
        • 用one hot编码将维度缩减到类别数
Dimensionality reduction 降维

 

 

数据间的相似度

• 每一条数据 都可以理解为多维空间中的一个点
• 可以根据点和点之间的距离来评价数据间的相似度
欧氏距离

 

 闵可夫斯基距离

P=1 曼哈顿距离

 

P=2 欧氏距离

P=无穷 切比雪夫距离 那个维度差值最大就是哪个差值作为距离

 

 余弦距离

• 将数据看做空间中的点的时候, 评价远近可以用欧氏距离或者余弦距离
步骤:
        • 将数据映射为高维空间中的点(向量)
        • 计算向量间的余弦值
• 取值范围[-1,+1] 越趋近于1代表越相似,越趋近于-1代表方向相反,0代表正交

余弦距离评价文章相似

• 想要评价两篇文章是否相似,除了jaccard系数,还可以使用余弦距离
        • 1.将文章分词
        • 2.将文章转变为词向量 ( TFIDF)
        • 3.转换为词向量后就可以将文章映射到高维空间变为一个向量
        • 4.文章之间的向量的余弦距离代表文章之间的相似程度

 

TF-IDF

TF 在给定的文档中某个词出现的概率
• 某篇文章内部 某词出现的次数 文章的总词数

 

DF 语料库中包含词t的总文章数
• IDF 逆文件频率  

 

        • 代表这个词在语料库中的重要程度,,越稀有代表越重要,为了减低臭大街的词对于相似度的贡献

 

• TF-IDF:

 

数据相似度  Jaccard数据相似系数

用来衡量有限样本集之间的相似程度

 

当集合A,B都为空时,定义J(A,B)=1
取值范围? 大小关系?
• Jaccard  距离

Jaccard 例子

• 假设用户喜欢的商品列表[8,9,17,25,4]
两个备选推荐 哪个更好呢?
        • [9,10,17,24,4,8] [8,9,25]
计算
       J1=?  J2=?
•可以应用于网页去重、文本相 似度分析

 

 

回顾precision  和 rec
• PRECISION 给出的正确中有多少正确的
• Recall所有的正确中有多少给给出了
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值