[数据仓库与商业智能核心技术笔记--day1]聚类分析

无监督学习

无监督学习中训练集是没有标签的。它会给定一些数据或者例子。

无监督学习应用

  • 学习没有标签的聚类或者群组(eg:基因分组)
  • 数据分组(eg:市场客户划分)
  • 图像压缩(图像都是没有标签的数据)

无监督学习分类:

建模:

对一些模型的概率或者参数的估计

  • 学习翻译词典
  • 学习语言语法
  • 学习社交图谱
聚类

原始数据有一些特征,将这些特征提取出来,根据特征进行聚类或者分组。自然挖掘里面的关系。

eg:

  • 基因图谱分析属于哪种病人
  • 一堆图片放在一起找出里面哪些属于同一个人分堆
  • 搜索引擎搜索结果
  • 客户分类定向投放广告
  • 网络图聚类
  • 用于数据可视化(eg:以山形状显示出来,这一堆的特征是山的高度)
聚类的表示
  • 使用一些特征来描述这堆数据
  • 分析数据之间的相似性或者距离,来判断是扁平聚类还是分层聚类
  • 确定聚类数:提前确认好,或者根据数据自由分组
聚类算法分类
扁平算法
  • 以整个数据集中一个随机的部分开始
  • 迭代优化
  • 典型代表:kmeans、基于模型的聚类、谱聚类
分层算法
  • 从上到下:凝聚算法
  • 从下到上:分裂算法

聚类也可分为硬聚类也可分为软聚类(硬聚类中每个数据只能属于一个类,软聚类中可以属于不同的类,他会告诉你不同类的概率。)

K-均值聚类(kmeans)
1、原理和计算

从一些初始的聚类中心开始,将每个数据分配/聚类到最近的中心。再用聚类中点的平均值重新计算作为中心(不一定在点上)。重新分配以后一部分点的归属会发生变化。到某次不再发生变化,迭代结束。

这个迭代的过程中用到的聚类是硬聚类,每一次迭代的过程中只能属于某一个类。

欧氏距离:计算方法 d ( x , y ) = ∑ i = 1 n ( x i − y i ) 2 d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} d(x,y)=i=1n(xiyi)2 ,适合空间数据,用于表示两个点之间的直线距离。【说明:这个和二维上的计算没什么区别,之所以是x,y是因为两个点 A ( x 1 , x 2 , x 3 . . . x n ) A(x_1,x_2,x_3...x_n) A(x1,x2,x3...xn) B ( y 1 , y 2 , y 3 . . . y n ) B(y_1,y_2,y_3...y_n) B(y1,y2,y3...yn),本质上还是同一维度的AB对应数值相减】。

也有一些不适用的情况:比如文本聚类文本中每个单词作为一个特征,值对应的是单词出现的次数,(这里面也包括一些为0的)。典型代表是葡萄酒数据(wine数据),里面的三个维度反应的是某三个词出现的次数。这时候用欧式距离是不合理的,没有实际意义。

当欧式距离不适用的时候,我们可以使用余弦相似度作为判断依据

余弦相似度(similarity):公式和余弦是一样的,(有的书里面sim是cos归成[0,1]范围内的数,公式会略微改变)【余弦计算公式就是高中数量积变换的】。
c o s = s i

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
水资源是人类社会的宝贵财富,在生活、工农业生产中是不可缺少的。随着世界人口的增长及工农业生产的发展,需水量也在日益增长,水已经变得比以往任何时候都要珍贵。但是,由于人类的生产和生活,导致水体的污染,水质恶化,使有限的水资源更加紧张。长期以来,油类物质(石油类物质和动植物油)一直是水和土壤中的重要污染源。它不仅对人的身体健康带来极大危害,而且使水质恶化,严重破坏水体生态平衡。因此各国都加强了油类物质对水体和土壤的污染的治理。对于水中油含量的检测,我国处于落后阶段,与国际先进水平存在差距,所以难以满足当今技术水平的要求。为了取得具有代表性的正确数据,使分析数据具有与现代测试技术水平相应的准确性和先进性,不断提高分析成果的可比性和应用效果,检测的方法和仪器是非常重要的。只有保证了这两方面才能保证快速和准确地测量出水中油类污染物含量,以达到保护和治理水污染的目的。开展水中油污染检测方法、技术和检测设备的研究,是提高水污染检测的一条重要措施。通过本课题的研究,探索出一套适合我国国情的水质污染现场检测技术和检测设备,具有广泛的应用前景和科学研究价值。 本课题针对我国水体的油污染,探索一套检测油污染的可行方案和方法,利用非分散红外光度法技术,开发研制具有自主知识产权的适合国情的适于野外便携式的测油仪。利用此仪器,可以检测出被测水样中亚甲基、甲基物质和动植物油脂的污染物含量,为我国众多的环境检测站点监测水体的油污染状况提供依据。
### 内容概要 《计算机试卷1》是一份综合性的计算机基础和应用测试卷,涵盖了计算机硬件、软件、操作系统、网络、多媒体技术等多个领域的知识点。试卷包括单选题和操作应用两大类,单选题部分测试学生对计算机基础知识的掌握,操作应用部分则评估学生对计算机应用软件的实际操作能力。 ### 适用人群 本试卷适用于: - 计算机专业或信息技术相关专业的学生,用于课程学习或考试复习。 - 准备计算机等级考试或职业资格认证的人士,作为实战演练材料。 - 对计算机操作有兴趣的自学者,用于提升个人计算机应用技能。 - 计算机基础教育工作者,作为教学资源或出题参考。 ### 使用场景及目标 1. **学习评估**:作为学校或教育机构对学生计算机基础知识和应用技能的评估工具。 2. **自学测试**:供个人自学者检验自己对计算机知识的掌握程度和操作熟练度。 3. **职业发展**:帮助职场人士通过实际操作练习,提升计算机应用能力,增强工作竞争力。 4. **教学资源**:教师可以用于课堂教学,作为教学内容的补充或学生的课后练习。 5. **竞赛准备**:适合准备计算机相关竞赛的学生,作为强化训练和技能检测的材料。 试卷的目标是通过系统性的题目设计,帮助学生全面复习和巩固计算机基础知识,同时通过实际操作题目,提高学生解决实际问题的能力。通过本试卷的学习与练习,学生将能够更加深入地理解计算机的工作原理,掌握常用软件的使用方法,为未来的学术或职业生涯打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值