数据挖掘
伙伴几时见
致力于成为一名数据科学家
展开
-
数据挖掘方法:CRISP-DM跨行业标准过程
数据挖掘活动主要分为无监督和有监督两大类。在无监督数据挖掘中,我们对各个变量不区别对待,而是考察它们之间的关系。这类方法有描述和可视化、关联规则分析、聚类分析、主成分分析等。在有监督数据挖掘中,我们希望建立根据一些变量来预测另一些变量的模型,前者被称为自变量,后者被称为因变量。有监督数据挖掘能从数据中获取深度细致的信息,应用非常广泛(如针对贷款企业违约率的预测、针对信用卡客户对营销活动的响应情况的转载 2016-10-22 16:01:38 · 1984 阅读 · 0 评论 -
客户流失模型
客户流失由于企业各种营销手段的实施而导致客户和企业终止合作的现象。1常见的客户流失:1、企业与客户签订明确的合约,合约终止后客户不再续约;2、客户最后一次使用企业服务直接超过一定的时间后没再使用企业服务。(常见)为什么做要用户流失预警?1、企业再发展新用户成本很高;2、一个老客户的流失给企业造成更大的损失,通常而言,一个老客户的价值相当于三个新客户的价值;3、客户的流失不仅给企业带来经济上的损失,...转载 2018-05-04 14:24:22 · 933 阅读 · 0 评论 -
机器学习 | 聚类分析总结 & 实战解析
来源:DataGod聚类分析是没有给定划分类别的情况下,根据样本相似度进行样本分组的一种方法,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度划分为若干组,划分的原则是组内距离最小化而组间距离最大化,如下图所示:常见的聚类分析算法如下:K-Means: K-均值聚类也称为快速聚类法,在最小化误差函数的基础上将数据划分为预定的类数转载 2017-12-05 15:04:10 · 1399 阅读 · 0 评论 -
在分类中如何处理训练集中不平衡问题
原文地址:一只鸟的天空,http://blog.csdn.net/heyongluoyao8/article/details/49408131在分类中如何处理训练集中不平衡问题 在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。Jason Brownlee的回答转载 2016-12-19 10:09:11 · 433 阅读 · 0 评论 -
机器学习经典算法详解及Python实现--决策树(Decision Tree)
(一)认识决策树1,决策树分类原理决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。近来的调查表明决策树也是最经常使用的数据挖掘算法,它的概念非常简单。决策树算法之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如转载 2016-12-21 13:46:10 · 1202 阅读 · 0 评论 -
什么是数据挖掘
任何一个组织(政府部门、企业、学校等)在决策与运营活动中都会积累丰富的经验,同时也面临着在不断变化的环境下做出快速而正确决策的挑战。数据挖掘方法首先把组织所积累的经验转换为可度量的数据,对其进行分析后,提炼出对运营管理有指导意义的新知识,进一步改进决策、改善运营活动。这是一个持续改进的过程,决策经营活动不断积累新的经验、新的数据,使用数据挖掘方法分析新的数据后不断产生新的知识,不断地促进决转载 2016-10-22 16:54:36 · 296 阅读 · 0 评论 -
数据挖掘之降维
自变量维度过多会给所有数据挖掘方法带来麻烦:(1)自变量过多会导致建模算法的运行速度慢。(2)自变量的维度增加时,过度拟合的可能性也会随之增大。(3)自变量维度越多,数据在整个输入空间的分布越稀疏,越难以获得对整个输入空间有代表性的样本。例如,如果只有一个均匀分布的二分自变量,那么1000个观测意味着平均每种取值对应于500个观测;但如果有10个均匀分布的二分自变量,总共有210=1024种取值,转载 2016-10-22 16:53:16 · 2116 阅读 · 0 评论 -
缺失值
缺失值可分为两类:一类是这个值实际存在但是没有被观测到,例如客户的性别;另一类是这个值实际就不存在,例如,在调查顾客购买的洗发液品牌时,如果某位顾客根本没有购买任何洗发液,那么这位顾客购买的洗发液品牌缺失。如何处理缺失值是一个很复杂的课题,这里仅做简要介绍,有兴趣的读者可以参阅这方面的专著(Schafer,1997;LittleandRubin,2002)。(一)自变量的缺失值如果某个自变转载 2016-10-22 16:52:21 · 1216 阅读 · 0 评论 -
数据分箱的常用方法
假设要将某个自变量的观测值分为k个分箱,一些常用的分箱方法有:1.无监督分箱(1)等宽分箱:将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。(2)等频分箱:把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱,例如,数值最小的1/k比例的观测形成第一个分箱,等等。(3)基于k均值聚类的分箱:使用第五章将介绍的k均值聚类法将观测值聚为k类,但在聚类过程中需转载 2016-10-22 16:51:20 · 48105 阅读 · 0 评论 -
数据分箱的适用情形
数据分箱是下列情形下常用的方法:1.某些数值自变量在测量时存在随机误差,需要对数值进行平滑以消除噪音。2.有些数值自变量有大量不重复的取值,对于使用、=等基本操作符的算法(如决策树)而言,如果能减少这些不重复取值的个数,就能提高算法的速度。3.有些算法只能使用分类自变量,需要把数值变量离散化。数据被归入几个分箱之后,可以用每个分箱内数值的均值、中位数或边界值来替代该分箱内各观测的数转载 2016-10-22 16:50:41 · 3262 阅读 · 0 评论 -
数据挖掘之处理分类自变量与处理时间变量
某些数据挖掘方法能够直接处理分类自变量,譬如第八章将介绍的决策树;但很多数据挖掘方法都只能处理数值自变量,如线性回归、神经网络等,使用这些方法时就需要把分类自变量转换为数值自变量。对于定序自变量,最常用的一种转换是按各类别的序号直接将该变量转换为数值自变量。对于名义自变量,最常用的转换是将该变量转换为哑变量。例如,对于性别而言,可以生成一个二元哑变量,取值1表示“女”,0表示“男”。对于有转载 2016-10-22 16:49:43 · 680 阅读 · 0 评论 -
浅说数据整合、抽样偏差及清除变量
一、数据整合我们需要将来自各个数据流的数据整合起来,并且生成合适的变量放入整合的数据集。二、抽样偏差抽样偏差是指收集到的数据无法代表我们所关心的总体。例如,在网上调查顾客对某种产品的看法就会产生抽样偏差,因为网上调查只能触及那些使用网络并且愿意在网络上回答相关问题的人群。不使用网络的顾客的看法是否会不同于使用网络的顾客的看法?那些愿意在网络上表达意见的顾客的看法是否会不同于那些不愿意在转载 2016-10-22 16:48:03 · 538 阅读 · 0 评论 -
缺失值的产生机制
缺失值可分为两类:一类是这个值实际存在但是没有被观测到,例如客户的性别;另一类是这个值实际就不存在,例如,在调查顾客购买的洗发液品牌时,如果某位顾客根本没有购买任何洗发液,那么这位顾客购买的洗发液品牌缺失。如何处理缺失值是一个很复杂的课题,有兴趣的读者可以参阅这方面的专著。缺失值的产生有三种机制:1.完全随机缺失(MissingCompletelyatRandom)某个变量是否缺失与它转载 2016-10-22 16:45:47 · 7700 阅读 · 1 评论 -
数据理解
因为数据通常分散在不同的部门,以不同的格式或者不同的载体存储,所属的数据库架构不一致,所以收集数据和转换数据格式需要花费大量的时间。收集到数据之后,我们需要刻画各个数据流的特征,理解它们之间的关系。一、数据粒度数据粒度指的是数据的详细程度,如数据是精确到分钟、小时、日、周、月、季度还是年。例如,对于信用卡的数据,每张卡每次消费都会有一次记录;但是对于财务报表而言,每年只有一次记录。通常对于转载 2016-10-22 16:42:27 · 575 阅读 · 0 评论 -
数据挖掘方法和步骤
针对数据挖掘过程中直接与数据相关的部分,SAS公司提出了SEMMA方法论,将数据挖掘的核心过程分为抽样(Sample)、探索(Explore)、修整(Modify)、建模(Model)、评估(Assess)几个阶段。1.数据抽样数据抽样就是从数据集中抽取具有代表性的样本,样本应该大到不丢失重要的信息,小到能够便于操作。2.探索使用可视化方法或主成分分析、因子分析、聚类等统计方法对数转载 2016-10-22 16:28:19 · 1902 阅读 · 0 评论 -
数据抽样
数据抽样就是从数据集中抽取具有代表性的样本,样本应该大到不丢失重要的信息,小到能够便于操作。数据抽样需要创建三个数据子集:(1)训练数据,用于拟合各模型;(2)验证数据,用于评估各模型并进行模型选择,避免过度拟合;(3)测试数据,用于对模型的普适性形成真实的评价。我们不能根据对训练数据集的拟合效果来进行模型选择。举例来说,如果有100个训练数据点用于拟合因变量y和自变量x之间的转载 2016-10-22 16:26:03 · 1173 阅读 · 0 评论 -
Python:SMOTE算法
17.11.28更新一下:最近把这个算法集成到了数据预处理的python工程代码中了,不想看原理想直接用的,有简易版的python开发:特征工程代码模版,进入页面后ctrl+F搜smote就行,请自取之前一直没有用过python,最近做了一些数量级比较大的项目,觉得有必要熟悉一下python,正好用到了smote,网上也没有搜到,所以就当做一个小练手来做一下。首先,看下Smote算法之前...转载 2018-12-25 11:18:38 · 3541 阅读 · 0 评论