网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
目录
聚类分析是什么
聚类分析是一种寻找数据之间内在结构的技术,将数据对象的集合分组为由类似的对象组成的多个类的分析过程。聚类把全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例彼此相同,处于不同簇中的实例彼此不同。聚类技术通常又被称为无监督学习,与监督学习不同的是,在簇中那些表示数据类别的分类或者分组信息是没有的。
一、 定义和数据类型
聚类应用
- 市场营销: 帮助营销人员帮他们发现顾客中独特的群组,然后利用他们的知识发展目标营销项目
- 土地利用: 在土地观测数据库中发现相似的区域
- 保险: 识别平均索赔额度较高的机动车辆保险客户群组
- 城市规划: 通过房屋的类型、价值、地理位置识别相近的住房
- 地震研究: 沿着大陆断层聚类地震的震中
聚类分析方法的性能指标
- 可扩展性
- 自适应性
- 鲁棒性
- 可解释性
聚类分析中常用数据结构有数据矩阵和相异度矩阵
聚类分析方法分类
基于划分、基于分层、基于密度、基于网络、基于模型
二、K-means****聚类算法
划分聚类方法对数据集进行聚类时包含三个要点
选定某种距离作为数据样本间的相似性度量
选择评价聚类性能的准则函数
选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值
标准测试函数:
均值:
K-Means算法流程:
输入:包含n个对象的数据集聚类个数k,最小误差e
输出:满足方差最小标准的k个聚类
①从n个数据对象中随机选出k个对象作为初始聚类的中心
②将每个类簇中的平均值作为度量基准,重新分配数据库中的
数据对象
③计算每个类簇的平均值,更新平均值
④循环(2)(3),直到每个类簇不在发生变化或者平均误差小于e
K-means****聚类算法的特点
优点
简单、快速
算法尝试找出使平方误差函数值最小的k个划分据集
对处理大数据集,该算法是相对可伸缩的和高效率的
缺点
不适合于发现非凸面形状的簇,或者大小差别很大的簇
要求用户必须事先给出要生成的簇的数目K
对于“噪声”和孤立点数据敏感
最全的Linux教程,Linux从入门到精通
======================
-
linux从入门到精通(第2版)
-
Linux系统移植
-
Linux驱动开发入门与实战
-
LINUX 系统移植 第2版
-
Linux开源网络全栈详解 从DPDK到OpenFlow
第一份《Linux从入门到精通》466页
====================
内容简介
====
本书是获得了很多读者好评的Linux经典畅销书**《Linux从入门到精通》的第2版**。本书第1版出版后曾经多次印刷,并被51CTO读书频道评为“最受读者喜爱的原创IT技术图书奖”。本书第﹖版以最新的Ubuntu 12.04为版本,循序渐进地向读者介绍了Linux 的基础应用、系统管理、网络应用、娱乐和办公、程序开发、服务器配置、系统安全等。本书附带1张光盘,内容为本书配套多媒体教学视频。另外,本书还为读者提供了大量的Linux学习资料和Ubuntu安装镜像文件,供读者免费下载。
本书适合广大Linux初中级用户、开源软件爱好者和大专院校的学生阅读,同时也非常适合准备从事Linux平台开发的各类人员。
需要《Linux入门到精通》、《linux系统移植》、《Linux驱动开发入门实战》、《Linux开源网络全栈》电子书籍及教程的工程师朋友们劳烦您转发+评论
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!