数据科学工程师面试宝典系列---数据挖掘算法原理

1.课程概述1.1定义技术定义:数据挖掘(data mining)就是从大量变的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。商业定义:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。1.2研究对象数据—关系型数据库,事务
摘要由CSDN通过智能技术生成

1.课程概述

1.1定义

技术定义:数据挖掘(data mining)就是从大量变的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

商业定义:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

1.2研究对象

数据

—关系型数据库,事务性数据库,面向对象的数据框

—数据仓库,多维数据库

—空间数据

—工程数据

—文本和多媒体数据

—时间相关的数据

—万维网(半结构化的html,结构化的XML)

1.3目的

描述:了解数据中潜在的规律

预测:用历史预测未来

1.4应用领域

解决典型商业问题:

—数据库营销(database marketing)

—客户群体划分(customer segmentation & classification)

—背景分析(profile analysis)

—交叉销售(cross-selling)

—客户流失性分析(credit analysis)

—客户信用记分(credit scoring)

—欺诈侦测(fraud detection)

—...等等

1.5实施步骤

教科书步骤:


实际业务应用的步骤:

情况一:有数据,没想法

数据探索(了解缺失值情况和数据类型...),数据预处理(),明确挖掘任务(),选择技术方案(),结果信息()。

情况二:有想法,没数据

明确挖掘任务(),收集数据(),数据预处理(),选择技术方案(),结果信息()

DIKW体系(Data-to-Information-to-Knowledge-to-Wisdom)


1.6技术原理

-关联分析

-分类

-聚类

-异常检测

-...其他

2.数据预处理

数据预处理(data preprocessing):是指在主要的处理以前对数据进行的一些处理。

—数据质量问题:数据太乱,数据质量差,影响后续数据挖掘结果的准确性。

—数据数量问题:数据太多,导致后续数据挖掘过程的开销太大,但未必能较大提高挖掘结果质量;数据太少,某些数据挖掘中需     要的关键属性缺少,影响数据挖掘结果的准确性。

数据质量问题

—数据不完整:缺少某些属性或某些感兴趣的属性。

—数据不正确或含噪声:包含错误或存在偏离期望的值。

—数据不一致:如用于商品分类的部门编码存在差异。

—数据时效性差:如进行近期预测,数据却是一年前的数据。

—数据可信度不高:曾经出现过错误数据,导致新数据可信度差。

—数据不可解释:使用了其他特殊编码,无法知道数据所表达的含义。

数据数量问题

—存储类型太多:存在不同的数据库中,数据结构不同。

—属性太多:数据的变量太多。

—条目太多:数据记录的条数太多。

—分类变量类别多:某个离散性变量类别很多。

—关键属性缺少:数据挖掘过程中所需的关键属性太少。

—数据层次太少:汇总数据较多,导致数据数量较少。

数据预处理技术

—数据清洗:解决数据质量太乱的问题

—数据压缩:解决数据数量太多的问题

—数据构造:解决数据数量太少的问题


2.1数据清理

缺失数据

处理缺失数据的步骤:

—步骤1:识别缺失数据

-NA代表缺失值,不可得到这个数;

-NaN代表不可能的值,不是一个数;

-Inf,-Inf分别代表正无穷和负无穷。

—步骤2:探究缺失数据

-缺失数据的比例

-缺失数据集中程度

-缺失数据的机制:

-完全随机缺失(MCAR):若某变量的缺失数据与其他任何观测或未观测变量都不相关,则数据为完全随机缺失。(简单删除)

-随机缺失(MAR):若某变量上的缺失数据与其他观测变量相关,与它自己的未观测值不相关,则数据为随机缺  失。(建立回归模型进行预测)

-非随机缺失(NMAR):若缺失数据不属于MCAR或MAR,则数据为非随机缺失。(模型选择法和模式混合法)

—步骤3:处理缺失数据

-删除法:观测样本删除,变量删除,完全变量分析,无回答权重。

-填补法:单变量填补(简单随机填补,均值填补,回归填补,热平台和冷平台,随机回归填补法等),多变量填补(多 重填补法等)。

噪声数据

噪声数据(noisy data)定义:无意义的数据(meaningless data)。

噪声数据产生的原因:硬件故障、编程错误或者语音或光学字符识别程序中的乱码;拼写错误、行业简称和俚语也会阻碍机器读取。

噪声数据处理原则:不是所有的噪声数据都要处理掉,必须事先判断出这些离群的点是否会阻碍后面的数据挖掘任务,部分情况下噪声数据是需要保留的重要信息。

噪声数据处理方法:分箱、回归、聚类等。


不一致数据

不一致数据:编码使用的不一致,数据表示的不一致。

不一致数据处理方法:通常需要人工检测,当发现一定规律时可以通过编程进行替换和修改;若存在不一致的数据是无意义数据,可以使用缺失值处理方法进行相应处理。

<

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值