数据科学工程师面试宝典系列---数据挖掘算法原理

最新推荐文章于 2024-06-23 10:33:16 发布

hehuanlin123

最新推荐文章于 2024-06-23 10:33:16 发布

阅读量814

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hehuanlin123/article/details/59594166

版权

1.课程概述1.1定义技术定义：数据挖掘（data mining）就是从大量变的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。商业定义：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。1.2研究对象数据—关系型数据库，事务

摘要由CSDN通过智能技术生成

1.课程概述

1.1定义

技术定义：数据挖掘（data mining）就是从大量变的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

商业定义：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。

1.2研究对象

数据

—关系型数据库，事务性数据库，面向对象的数据框

—数据仓库，多维数据库

—空间数据

—工程数据

—文本和多媒体数据

—时间相关的数据

—万维网（半结构化的html，结构化的XML）

1.3目的

描述：了解数据中潜在的规律

预测：用历史预测未来

1.4应用领域

解决典型商业问题：

—数据库营销（database marketing）

—客户群体划分（customer segmentation & classification）

—背景分析（profile analysis）

—交叉销售（cross-selling）

—客户流失性分析（credit analysis）

—客户信用记分（credit scoring）

—欺诈侦测（fraud detection）

—...等等

1.5实施步骤

教科书步骤：

实际业务应用的步骤：

情况一：有数据，没想法

数据探索（了解缺失值情况和数据类型...），数据预处理（），明确挖掘任务（），选择技术方案（），结果信息（）。

情况二：有想法，没数据

明确挖掘任务（），收集数据（），数据预处理（），选择技术方案（），结果信息（）

DIKW体系（Data-to-Information-to-Knowledge-to-Wisdom）

1.6技术原理

-关联分析

-分类

-聚类

-异常检测

-...其他

2.数据预处理

数据预处理（data preprocessing）：是指在主要的处理以前对数据进行的一些处理。

—数据质量问题：数据太乱，数据质量差，影响后续数据挖掘结果的准确性。

—数据数量问题：数据太多，导致后续数据挖掘过程的开销太大，但未必能较大提高挖掘结果质量；数据太少，某些数据挖掘中需要的关键属性缺少，影响数据挖掘结果的准确性。

数据质量问题

—数据不完整：缺少某些属性或某些感兴趣的属性。

—数据不正确或含噪声：包含错误或存在偏离期望的值。

—数据不一致：如用于商品分类的部门编码存在差异。

—数据时效性差：如进行近期预测，数据却是一年前的数据。

—数据可信度不高：曾经出现过错误数据，导致新数据可信度差。

—数据不可解释：使用了其他特殊编码，无法知道数据所表达的含义。

数据数量问题

—存储类型太多：存在不同的数据库中，数据结构不同。

—属性太多：数据的变量太多。

—条目太多：数据记录的条数太多。

—分类变量类别多：某个离散性变量类别很多。

—关键属性缺少：数据挖掘过程中所需的关键属性太少。

—数据层次太少：汇总数据较多，导致数据数量较少。

数据预处理技术

—数据清洗：解决数据质量太乱的问题

—数据压缩：解决数据数量太多的问题

—数据构造：解决数据数量太少的问题

2.1数据清理

缺失数据

处理缺失数据的步骤：

—步骤1：识别缺失数据

-NA代表缺失值，不可得到这个数；

-NaN代表不可能的值，不是一个数；

-Inf,-Inf分别代表正无穷和负无穷。

—步骤2：探究缺失数据

-缺失数据的比例

-缺失数据集中程度

-缺失数据的机制：

-完全随机缺失（MCAR）：若某变量的缺失数据与其他任何观测或未观测变量都不相关，则数据为完全随机缺失。（简单删除）

-随机缺失（MAR）：若某变量上的缺失数据与其他观测变量相关，与它自己的未观测值不相关，则数据为随机缺失。（建立回归模型进行预测）

-非随机缺失（NMAR）：若缺失数据不属于MCAR或MAR，则数据为非随机缺失。（模型选择法和模式混合法）

—步骤3：处理缺失数据

-删除法：观测样本删除，变量删除，完全变量分析，无回答权重。

-填补法：单变量填补（简单随机填补，均值填补，回归填补，热平台和冷平台，随机回归填补法等），多变量填补（多重填补法等）。

噪声数据

噪声数据（noisy data）定义：无意义的数据（meaningless data）。

噪声数据产生的原因：硬件故障、编程错误或者语音或光学字符识别程序中的乱码；拼写错误、行业简称和俚语也会阻碍机器读取。

噪声数据处理原则：不是所有的噪声数据都要处理掉，必须事先判断出这些离群的点是否会阻碍后面的数据挖掘任务，部分情况下噪声数据是需要保留的重要信息。

噪声数据处理方法：分箱、回归、聚类等。

不一致数据

不一致数据：编码使用的不一致，数据表示的不一致。

不一致数据处理方法：通常需要人工检测，当发现一定规律时可以通过编程进行替换和修改；若存在不一致的数据是无意义数据，可以使用缺失值处理方法进行相应处理。

<

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据科学工程师面试宝典系列---数据挖掘算法原理

1.课程概述1.1定义技术定义：数据挖掘（data mining）就是从大量变的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。商业定义：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。1.2研究对象数据—关系型数据库，事务
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。