数据挖掘基础(第一章)_数据挖掘 课题

本文探讨了企业在业务运营中如何运用数据挖掘技术,涉及问题识别、策略制定、人员角色、精细化运营方案以及数据挖掘的理论基础,包括数据挖掘的定义、分类、标准流程和常用模型。强调了数据挖掘在知识发现和业务提升中的重要性,并介绍了数据挖掘的各个环节以及常见任务类型。
摘要由CSDN通过智能技术生成

在企业的业务运营中,通常会借助数据挖掘技术来辅助产品设计,营销推广等环节的工作。需要问自己5个问题。
why:表示通过日常监控分析发现的运营问题;
what:表示制定解决目标问题的总体策略方针。
who:表示结合运营数据并组织开展数据挖掘工作的各类专业人员;
which:表示针对特定目标用户设计的精细化运营方案,主要目的是促进用户活跃和业务的有效使用。
where:表示通过跟踪用户发展和业务推广情况作出的相应优化和改进,并评估市场反馈。
在这里插入图片描述

1.1.2 知识决策跨领域

数据挖掘与统计学有很多共同之处,二者有着相似的研究目标,都在探寻在于大量数据中有价值的信息和知识。同时数据挖掘还借鉴并应用了其他许多科学领域的思想和方法,比如数据库、机器学习和人工智能等。通过基于云计算的大规模数据存储和处理技术,也为海量数据挖掘提供了新的手段和方法。
在这里插入图片描述

1.1.3 什么是数据挖掘

数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
广义:数据挖掘是指知识发现的全过程
狭义:数据挖掘是知识发现的一个重要环节,利用机器学习、统计分析等发现数据模式的智能方法,侧重于模型和算法。
数据挖掘的数据源包括数据库、数据仓库、Web或其他数据存储库。
知识发掘的过程如下:
在这里插入图片描述
(1)数据准备:掌握知识发现应用领域的情况,熟悉相关的背景知识,理解用户需求。
(2)数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。
(3)数据预处理:对数据选取步骤中选出的数据进行再处理,检查数据的完整性及数据一致性,消除噪声,滤除与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。
(4)数据变换:根据知识发现的任务对经过预处理的数据进行再处理,将数据变换或统一成适合挖掘的形式,包括投影、汇总、聚集等。
(5)数据挖掘:确定发现目标,根据用户的要求,确定要发现的知识类型。根据确定的任务选择合适的分类、关联、聚类等算法,选取合适的模型和参数,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。
(6)模式解释:对在数据挖掘中发现的模式进行解释。经过用户或机器评估后,可能会发现这些模式中存在冗余或无关的模式,此时应该将其剔除。如果模式不能满足用户的要求,就返回前面的相应步骤中反复提取。
(7)知识评价:将发现的知识以用户能了解的方式呈现给用户。
数据挖掘标准流程:
跨行业的标准数据挖掘流程CRISP-DM(CRoss-Industry Standard Process for Data Mining)
CRISP-DM从方法论的角度将整个数据挖掘过程分解商业理解、数据理解、数据准备、建立模型、模型评估、和结果部署六个阶段。
在这里插入图片描述

1.1.4 数据挖掘常用分类

数据挖掘的任务模式按照功能类型分成描述型和预测型两类,且都有各自的使用范围和特点。一般来说,描述型任务则基于数据进行检验推断。数据挖掘的主要功能是找到任务中所需要的各种模式类型,同时将这些功能归纳演绎成为一个知识发现的过程,其中每项数据挖掘功能能够在具体的实践操作中互相联系,综合发挥作用,从而来满足不同的业务应用需求。常用的数据挖掘功能包括分类、聚类、预测和关联四大类模型。
在这里插入图片描述
分类:分类(classification)属于有监督学习,即从给定的有标记训练数据集中学习出一个函数,当未标记数据到来时,可以根据这个函数预测结果。在数据挖掘领域,分类可以看成是从一个数据集到一组预先定义的、非交叠的类别的映射过程。分类找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象的类标号,导出的模型是基于对训练数据集(即类标号已知的数据对象)的分析。该模型用来预测类标号未知的对象的类标号。导出模型的表示形式有分类规则、决策树、数学公式、神经网络等。
聚类:
聚类:聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行划分的一种多元统计分析方法,讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的划分。聚类是在没有先验知识的情况下进行的。
一个类簇是测试空间中点的汇聚,同一类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离。类簇可以描述为一个包含密度相对较高的点集的多维空间中的连通区域。
在机器学习中,聚类归纳为非监督式学习。
预测:即回归分析(regression analysis):在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量,主要包括线性回归分析和非线性回归分析。
分类与回归具有许多不同的研究内容,它们都是研究输入输出变量之间的关系问题,不同之处在于分类的输出是离散的类别值,而回归的输出是连续的数值,即回归分析用来预测缺失的或难以获得的数值数据,而不是(离散的)类标号。
关联规则(Association rules):挖掘发现大量数据中项集之间有趣的关联或相关联系。
即在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构,是数据挖掘中一个重要的课题。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排等。

1.2 数据基础

1.2.1 数据概述

1)数据概念:在现代计算机系统中,数据通称所有能输入到计算机系统、能被计算机程序处理、具有一定逻辑意义的数学或物理的变量及其数值的集合。
数据包括描述对象及其属性,表现为数字、文字、符号、图形、图像、音频视频等多种形式。

2)数据的分类:
定性数据和定量数据:定性数据表示数据对象的抽象描述特征,如很冷、恰如其分等;定量数据反映数据对象的具体数量特征,如长度、面积、体积等几何量或重量、速度等物理量。
图形数据与图像数据:
图形数据:是图的矢量数据,主要包含地图数据(点、线、面、体)、带有对象之间联系的数据和具有图形对象的数据。
图像数据:图像的栅格数据
图像可以分解为很多小区域,称为像素;黑白像素的灰度用一个数值表示;彩色像素用红、绿、蓝三原色分量表示。
分辨率:像素的大小,决定图像的清晰程度和占用的存储空间。
元数据与数据字典:
元数据:元数据(meta data)是描述数据的数据,通常由信息结构的描述组成,主要描述数据及其环境。按用途分为技术元数据、业务元数据和操作元数据
数据字典:一种用户可以访问的记录数据库和应用程序数据的目录
主要是用来解释数据表、数据字段等数据结构意义,数据字段的取值范围,数据值代表意义等。
3)数据属性(特征、维或字段)是指一个数据对象的某方面性质或特性
数据属性分为四种:标称、序数、区间和比率
标称属性(又称分类属性):属性值只提供足够的信息以区分对象,如颜色、性别、产品编号等。这种属性值没有实际意义。如三个对象可以用甲乙丙区分,也可以用ABC
序数属性(又称顺序属性):属性值提供足够的信息,以区分对象的序,如成绩等级(优、良、中、及格、不及格)、年级(一年纪、二年级、三年级、四年级)
区间属性的属性值之间的差是有意义的,如日历日期、摄氏温度。
比率属性的属性值之间的差与比率都是有意义的,如长度、时间、速度等。
标称和序数属性统称为定性的属性,取值为集合
区间和比率属性统称为数值的或定量的属性,取值为区间、取值包括离散数据和连续数值
4)数据集:具有相同属性的数据对象的集合就是数据集。

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

  • 19
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值