【大数据】你务必要搞清楚的十大数据挖掘知识点

最新推荐文章于 2023-04-20 16:38:58 发布

产业智能官

最新推荐文章于 2023-04-20 16:38:58 发布

阅读量1.5k

点赞数

数据挖掘是指有组织有目的地收集数据、分析数据，并从这些大量数据提取出需要的有用信息，从而寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。

数据挖掘是一种从大量数据中寻找存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构的技术，是统计学、数据库技术和人工智能技术等技术的综合。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

数据挖掘的本质

数据挖掘的本质就是寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。

数据挖掘的学科联系

数据挖掘是一门涉及面很广的交叉学科，包括数理统计、人工智能、计算机等。涉及机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。

数据挖掘的价值、目的、作用

数据挖掘的价值

数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型，产生学术价值、促进生产、产生并促进商业利益，一切都是为了商业价值(数据——>信息——>知识——>商业)。

数据挖掘的目的

数据挖掘的最终目的是要实现数据的价值，所以，单纯的数据挖掘是没有多大意义的。

数据挖掘的作用

从大量数据中寻找存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。

数据挖掘技术产生的背景

1. 数据正在以空前的速度增长，现在的数据是海量的大数据。现在，不缺乏数据，但是却面临一个尴尬的境地——数据极其丰富，信息知识匮乏。

2. 海量的大数据已经远远超出了人类的理解能力，如果不借助强大的工具和技术，很难弄清楚大数据中所蕴含的信息和知识。重要决策如果只是基于决策制定者的个人经验，而不是基于信息、知识丰富的数据，那么，这就极大地浪费了数据，也极大地给我们的商业、学习、工作、生产带来不便和巨大的阻碍。所以，能够方便、高效、快速地从大数据里提取出巨大的信息和知识是必须面对的，因此，数据挖掘技术应运而生。数据挖掘填补了数据和信息、知识之间的鸿沟。

3. 数据挖掘技术有助于实现从 DT(数据时代)向 KT(知识时代)转变。

数据挖掘与数据分析的区别

数据分析的两种说法

即广义的数据分析和狭义的数据分析。广义的数据分析包括狭义的数据分析和数据挖掘，而我们常说的数据分析就是指狭义的数据分析。

数据分析(狭义)

(1) 数据分析(狭义)的定义：简单来说，狭义的数据分析就是对数据进行分析。专业的说法，狭义的数据分析是指根据分析目的，用适当的统计分析方法及工具，对收集来的数据进行处理与分析，提取有价值的信息，发挥数据的作用。

(2) 作用：它主要实现三大作用：现状分析、原因分析、预测分析(定量)。狭义的数据分析的目标明确，先做假设，然后通过数据分析来验证假设是否正确，从而得到相应的结论。

(3)方法：主要采用对比分析、分组分析、交叉分析、回归分析等分析方法;

(4)结果：狭义的数据分析一般都是得到一个指标统计量结果。比如，总和、平均值等，这些指标数据都需要与业务结合进行解读，才能发挥出数据的价值与作用。

数据挖掘

(1)定义：数据挖掘是指从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。

(2)作用：数据挖掘主要侧重解决四类问题，即分类、聚类、关联和预测(定量、定性)。数据挖掘的重点在寻找未知的模式与规律。比如，我们常说的数据挖掘案例：啤酒与尿布、安全套与巧克力等，这就是事先未知的，但又是非常有价值的信息。

(3)方法：主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。

(4)结果：输出模型或规则，并且可相应得到模型得分或标签，模型得分如流失概率值、总和得分、相似度、预测值等，标签如高中低价值用户、流失与非流失、信用优良中差等。

总结

数据分析(狭义)与数据挖掘的本质都是一样的，都是从数据里面发现关于业务的知识(有价值的信息)，从而帮助业务运营、改进产品以及帮助企业做更好的决策。所以数据分析(狭义)与数据挖掘构成广义的数据分析。

数据挖掘软件及其发展

1. 第一代，代表软件：Salford Systems 公司早期的 CART 系统。

2. 第二代，代表软件：SAS Enterprise Miner;DBMiner，DBMiner 是加拿大 SimonFraser 大学开发的一个多任务数据挖掘系统，它的前身是 DBLearn。

3. 第三代，代表软件：SPSS Clementine，SPSS Clementine 是 SPSS 公司的一个数据挖掘平台;RapidMiner，RapidMiner 是世界领先的数据挖掘解决方案。

4. 第四代，正在开发。

数据挖掘技术及其分类

数据挖掘技术(方法)分为两大类

(1)预言(Predication)：用历史预测未来。

(2)描述(Description)：了解数据中潜在的规律。

有哪些数据挖掘技术(方法)

数据挖掘常用的方法有：分类、聚类、回归分析、关联规则、神经网络、特征分析、偏差分析等。这些方法从不同的角度对数据进行挖掘。

(1)分类

分类的含义：就是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类。分类是依靠给定的类别对对象进行划分的。

分类的目的(作用)：其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别中。

分类的应用：客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测、应用分类、趋势预测等。

主要的分类方法：决策树、KNN 法 (K-Nearest Neighbor)、SVM 法、VSM 法、Bayes 法、神经网络等。

分类算法的局限：分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。

(2)聚类

聚类的含义：聚类指事先并不知道任何样本的类别标号，按照对象的相似性和差异性，把一组对象划分成若干类，并且每个类里面对象之间的相似度较高，不同类里面对象之间相似度较低或差异明显。我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，聚类是一种无监督学习。

聚类与分类的区别：聚类类似于分类，但是，与分类不同的是，聚类不依靠给定的类别对对象进行划分，而是根据数据的相似性和差异性将一组数据分为几个类别。

聚类的目的：聚类与分类的目的不同。聚类是要按照对象的相似性和差异性将对象进行分类，属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。组内的相似性越大，组间差别越大，聚类就越好。

聚类的方法(算法)：主要的聚类算法可以划分为如下几类，划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法。每一类中都存在着得到广泛应用的算法，划分方法中有 k-means 聚类算法、层次方法中有凝聚型层次聚类算法、基于模型方法中有神经网络聚类算法。

聚类的应用：它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

(3)回归分析

回归分析的含义：回归分析是一个统计预测模型，用以描述和评估因变量与一个或多个自变量之间的关系;反映的是事务数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系。

回归分析的目的(作用)：回归分析反映了数据库中数据的属性值在时间上的特征，通过函数表达数据映射的关系来发现属性值之间的依赖关系。

回归分析的应用：回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。它可以应用到市场营销的各个方面，如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

回归分析的主要研究问题：数据序列的趋势特征、数据序列的预测、数据间的相关关系等。

(4)关联规则

关联规则的含义：关联规则是隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。关联规则是描述数据库中数据项之间所存在的关系的规则。

关联规则的目的(作用)：发现隐藏在数据间的关联或相互关系，从一件事情的发生，来推测另外一件事情的发生，从而更好地了解和掌握事物的发展规律等等。

关联规则的挖掘过程主要包括两个阶段：第一阶段为从海量原始数据中找出所有的高频项目组;第二阶段为从这些高频项目组产生关联规则。

关联规则的应用：关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求，各银行在自己的 ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。

(5)神经网络方法

神经网络作为一种先进的人工智能技术，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的问题，以及那些以模糊、不完整、不严密的知识或数据为特征的问题，它的这一特点十分适合解决数据挖掘的问题。

典型的神经网络模型主要分为三大类：第一类是以用于分类预测和模式识别的前馈式神经网络模型，其主要代表为函数型网络、感知机。第二类是用于联想记忆和优化算法的反馈式神经网络模型，以Hopfield的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法，以ART模型为代表。虽然神经网络有多种模型及算法，但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则，而且人们很难理解网络的学习及决策过程。

(6)Web数据挖掘

Web数据挖掘的含义：web数据挖掘是一项综合性技术，指Web从文档结构和使用的集合C中发现隐含的模式P，如果将C看做是输入，P 看做是输出，那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

Web数据挖掘的研究对象：是以半结构化和无结构文档为中心的Web，这些数据没有统一的模式，数据的内容和表示互相交织，数据内容基本上没有语义信息进行描述，仅仅依靠HTML语法对数据进行结构上的描述。当前越来越多的Web 数据都是以数据流的形式出现的，因此对Web 数据流挖掘就具有很重要的意义。

目前常用的Web数据挖掘算法：PageRank算法、HITS算法、LOGSOM 算法。这三种算法提到的用户都是笼统的用户，并没有区分用户的个体。

Web数据挖掘的应用：可以利用Web的海量数据进行分析，收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息，集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息，并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆，对这些信息进行分析和处理，以便识别、分析、评价和管理危机。

目前Web 数据挖掘面临着一些问题：用户的分类问题、网站内容时效性问题，用户在页面停留时间问题，页面的链入与链出数问题等。

(7)特征分析

特征分析的含义：特征分析是从数据库中的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征。

特征分析的目的(作用)：在于从海量数据中提取出有用信息，从而提高数据的使用效率。

特征分析的应用：如营销人员通过对客户流失因素的特征提取，可以得到导致客户流失的一系列原因和主要特征，利用这些特征可以有效地预防客户的流失。

(8)偏差分析

偏差分析的含义：偏差是数据集中的小比例对象。通常，偏差对象被称为离群点、例外、野点等。偏差分析就是发现与大部分其他对象不同的对象。

偏差分析的应用：在企业危机管理及其预警中，管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。而其成因源于不同的类、自然变异、数据测量或收集误差等。

什么叫“异常”

(1)Hawkins给出了异常的本质性的定义：异常是数据集中与众不同的数据，使人怀疑这些数据并非随机偏差，而是产生于完全不同的机制。

(2)聚类算法对异常的定义：异常是聚类嵌于其中的背景噪声。

(3)异常检测算法对异常的定义：异常是既不属于聚类也不属于背景噪声的点。他们的行为与正常的行为有很大不同。

640?wx_fmt=png

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

640?wx_fmt=png

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能金融”、“智能零售”、“智能驾驶”、“智能城市”；新模式：“财富空间”、“工业互联网”、“数据科学家”、“赛博物理系统CPS”、“供应链金融”。

官方网站：AI-CPS.NET

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！

产业智能官

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【大数据】你务必要搞清楚的十大数据挖掘知识点

数据挖掘是指有组织有目的地收集数据、分析数据，并从这些大量数据提取出需要的有用信息，从而寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。数据挖...
复制链接

扫一扫

【大数据】你务必要搞清楚的十大数据挖掘知识点

“相关推荐”对你有帮助么？