数据分析与挖掘框架
文章平均质量分 89
进击的橘子猫正式改名上线,欢迎大家关注我的微信公众号。我会定期在公众号与CSDN分享数据分析与挖掘框架的相关知识。
进击的橘子猫
这个作者很懒,什么都没留下…
展开
-
数据科学猫:数据预处理 之 数据分箱(Binning)
进击的橘子猫正式改名上线啦!我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。让我们进击起来吧!简介 本篇主要介绍机器学习建模中数据预处理步骤的数据分箱部分。在本篇中,会对数据分箱的定义、目的、方法分类以及Python的实现方法进行介绍。 一句话概括版分箱就是把数据按特定的规则进行分组,实现数据的离散化,增..原创 2021-05-07 11:21:12 · 26460 阅读 · 11 评论 -
数据科学猫:强化学习的定义
进击的橘子猫正式改名上线啦!我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。让我们进击起来吧!简介几句话概括版:机器学习的算法可以分为以下三类:有监督学习(Supervised Learning):有预测目标Y,通过X预测Y 无监督学习(Unsupervised Learning):没有Y,只通过X进行分析..原创 2021-04-30 14:18:24 · 531 阅读 · 0 评论 -
数据科学猫:数据分析的主要类型、描述性分析、预测性分析与规范性分析
进击的橘子猫正式改名上线啦!我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。让我们进击起来吧!简介 本篇介绍三大数据分析的方法,以及机器学习在这三种方法中的定位。 几句话概括版数据分析的三大方法为: 描述性分析(Descriptive analytics) 预测性分析(Predicti...原创 2021-04-21 13:22:17 · 11097 阅读 · 0 评论 -
数据科学猫:人工智能要素、生态与应用领域(下篇)
进击的橘子猫正式改名上线啦!我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。让我们进击起来吧!简介 在上篇中,本文会主要针对人工智能的要素、生态进行概括性的介绍。同时介绍两个AI的应用场景,即AI在智能医疗与智能安防的发展场景。 在下篇中,会主要介绍AI在智能家居、智能零售与智能汽车方向的应用。 一句..原创 2021-04-06 20:03:29 · 385 阅读 · 0 评论 -
数据科学猫:人工智能要素、生态与应用领域(上篇)
进击的橘子猫正式改名上线啦!我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。让我们进击起来吧!简介 在上篇中,本文会主要针对人工智能的要素、生态进行概括性的介绍。同时介绍两个AI的应用场景,即AI在智能医疗与智能安防的发展场景。 在下篇中,会主要介绍AI在智能家居、智能零售与智能汽车方向的应用。 ...原创 2021-04-01 13:51:12 · 2290 阅读 · 1 评论 -
数据科学猫:人工智能、机器学习与深度学习的概念
进击的橘子猫正式改名上线啦!我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat也欢迎大家搜索微信公众号“进击的橘子猫”,里面文章会有更多的数据科学PPT展示哦~ 我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。让我们进击起来吧!简介最近人工智能、机器学习与深度学习越来越火爆。所以简单介绍一下这三个现下比较流行的概念以及它们之间的区别。一句话概括版 人工智能(Artificial Intellige..原创 2021-03-25 15:17:25 · 936 阅读 · 0 评论 -
4.3.1有监督学习(五) - 支持向量机(SVM - Support Vector Machine)
简介支持向量机(Support Vector Machine,SVM)是一种有监督学习中的分类器。它适合小样本、非线性以及高维度的分割。SVM通过选择不同的核函数来构造不同的模型,并构建不同的分割器。例如,核函数为线性函数时,SVM等同于线性回归;核函数为Sigmoid时,SVM等价于神经网络。一句话解释版本:SVM通过非线性转换升维数据,实现线性可分;通过最大化边界,寻找最优分割器。...原创 2018-08-27 17:02:27 · 2906 阅读 · 0 评论 -
4.4.2分类模型评判指标(三) - KS曲线与KS值
简介KS曲线是用来衡量分类型模型准确度的工具。KS曲线与ROC曲线非常的类似。其指标的计算方法与混淆矩阵、ROC基本一致。它只是用另一种方式呈现分类模型的准确性。KS值是KS图中两条线之间最大的距离,其能反映出分类器的划分能力。一句话概括版本:KS曲线是两条线,其横轴是阈值,纵轴是TPR与FPR。两条曲线之间之间相距最远的地方对应的阈值,就是最能划分模型的阈值。KS值是MAX(TP...原创 2018-08-24 17:04:55 · 36194 阅读 · 2 评论 -
4.3.1有监督学习(六) - 朴素贝叶斯分类(Naive Bayesian Classifier)
简介贝叶斯分类方法是与有监督学习中的最直观简单的方法。贝叶斯分类器缘起于贝叶斯定理,在定理的基础上发展为了朴素贝叶斯分类法(Naive Bayesian Classification)。朴素贝叶斯分类方法的好处在于简单直接,它一般用于概率推理与决策,即在信息不全的时候,通过观察随机变量,推断不可观察的随机变量。一句话解释版本:贝叶斯分类是利用概率论作为基础推断不可观测变量的类别,其基础...原创 2018-08-29 15:06:18 · 5601 阅读 · 0 评论 -
4.3.2无监督学习(三) - 关联规则与Apriori算法
简介关联分析为了寻找数据各个特征之间的关联影响关系。关联关系并不是因果关系,它表示的是特征A出现与特征B出现之间的影响关系。关联分析通常可以分为关联规则(Association Rules)与序列模式(Sequence Pattern Mining)。其中,关联规则算法中最出名的是Apriori算法。其应用最广为流传的是“啤酒与尿布”的例子。一句话解释版本:关联分析通过支持度与置信度衡...原创 2018-09-04 12:50:50 · 2818 阅读 · 0 评论 -
4.4.2分类模型评判指标(四) - ROC,AUC,GINI,KS,Lift,Gain,MSE总结
简介分类模型的评判指标光是图就有好多,ROC,AUC,GINI,KS,Lift,Gain,MSE,这些有些是图有些是指标,放在一起乱七八糟搞得人分不清东南西北。所以这里我先整体给大家一个直观的介绍。省的以后再遇上这么多图的时候完全分不清是谁是谁。三句话概括版本:Confusion Matrix -> Lift,Gain,ROC。ROC -> AUC,KS -> G...原创 2018-09-05 16:45:24 · 10889 阅读 · 1 评论 -
4.3.2无监督学习(四) - 序列模式与AprioriAll算法
简介关联分析为了寻找数据各个特征之间的关联影响关系。关联关系并不是因果关系,它表示的是特征A出现与特征B出现之间的影响关系。关联分析通常可以分为关联规则(Association Rules)与序列模式(Sequence Pattern Mining)。其中,序列模式算法中最基本的是AprioriAll算法。一句话解释版本:序列模式就是有时间顺序概念的关联规则。数据分析与挖掘体系...原创 2018-09-06 10:53:15 · 1845 阅读 · 0 评论 -
4.3.4.集成学习(一) - 袋装法(Bagging),提升法(Boosting),随机森林(Random Forest)
简介集成学习(Ensemble Learning)是通过聚合多个分类器的预测结果来提高分类的准确率。比如,在集成学习中,会生成多个分类树模型,从中选取表现较好的那些树模型,在通过投票等筛选方式决定最终输出的分类器。在聚合算法中,以Bagging,Boosting与Random Forest(随机森林)最为典型。这三个算法,因为能够显著改善决策树的缺陷而被广泛应用。一句话解释版本:Bag...原创 2018-09-17 15:51:19 · 8710 阅读 · 0 评论 -
3.4.1 MapReduce - 概念、框架、运行机制
简介MapReduce(分布式计算框架)始于Google的MapReduce论文,发表于2004年12月。 MapReduce用于计算海量数据。它将计算抽象成Map 和Reduce两部分。MapReduce非常适合在大量计算机组成的分布式并行环境里进行数据处理。在如下MapReduce的官网中,有对MapReduce的详细描述,针对最新版本,如果想找某一特定版本(如Hadoop 2.7.7...原创 2019-04-01 13:35:40 · 343 阅读 · 0 评论 -
3.4.1 HDFS(分布式文件系统) - 概念、架构、运行机制、配置文件与命令
简介作为Hadoop生态中核心的组件,HDFS在Hadoop项目最初就已经存在。HDFS始于 Google 在2003年10月份发表的GFS(Google File System)论文。 它其实就是 GFS 的一个克隆版本。但是经过这些年的发展,HDFS的架构和功能基本固化,并成为一个完善的核心组件。在如下HDFS的官网中,有对HDFS的详细描述,针对我装的版本(Hadoop 2.7.7)...原创 2019-03-29 10:24:47 · 688 阅读 · 0 评论 -
Python基础(四) - 自动在Windows中运行Python脚本并定时触发作业
简介讲一下在Python中写好了一个脚本之后,怎么自动双击一个程序自动就跑起来。以及,怎么在Windows 10中设计定期定时触发并跑脚本。环境介绍系统环境:Windows 10Python版本:Python 3.5必备包:无运行Python脚本:.bat文件在Windows中,.bat文件是批处理文件,是与Linux中.sh(shell)文件很像的东西。...原创 2019-04-12 15:01:50 · 3803 阅读 · 1 评论 -
3.4.1 Spark RDD - 概念与简单理解
简介Spark是一个计算引擎,是MapReduce的高配升级版本。Spark RDD是Spark中的核心理念。Spark RDD概念Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。RDD的全称为Resilient Distribu...原创 2019-04-09 14:10:16 · 530 阅读 · 0 评论 -
4.3.1有监督学习(四) - BP神经网络(BP Neuron Networks)
简介BP神经网络(Backpropagation Neuron Networks)又被称作多层感应机(Multi-layer Perceptrons)。BP神经网络通过设定隐藏层,能够在原有逻辑回归的基础上实现非线性的分割。神经网络在构建过程中,通过定义输入层、隐藏层与输出层,明确激活函数、损失函数,通过梯度递减法训练样本,最终实现分类器。一句话解释版本:神经网络由输入层、隐藏层、输出...原创 2018-08-23 08:14:28 · 7499 阅读 · 0 评论 -
4.3.1有监督学习(三) - 决策树(Decision Tree) - 剪枝(Pruning)
简介决策树是与有监督学习中的常用方法。决策树的算法多见于分类问题中,即我们常说的分类树(Classification Tree);少数情况下,决策树也可以用于连续问题,即回归树(Regression Tree)。若构建决策树的自变量过多,会产生高维度、过拟合等问题,因此,需要在全树的基础上进行剪枝,保留最有效的自变量,删除不那么重要的自变量。这一过程,就叫剪枝。一句话解释版本:剪枝分为...原创 2018-08-13 18:28:38 · 4045 阅读 · 0 评论 -
3.4.2数据标准化(一) - Z-Score标准化
在数据标准化中,常见的方法有如下三种:Z-Score 标准化最大最小标准化小数定标法本篇主要介绍第一种数据标准化的方法,Z-Score标准化。此方法在整个数据分析与挖掘体系中的位置如下图所示。Z-Score处理方法处于整个框架中的数据准备阶段。也就是说,在源数据通过网络爬虫、接口或其他方式进入数据库中后,下一步就要进行的数据预处理阶段中的重要步骤。数据分析与挖掘中,很多方法需要样本符合一定的标准,...原创 2018-05-14 18:05:25 · 119256 阅读 · 10 评论 -
数据科学猫:无监督学习的定义与模型
无监督学习的定义在有监督学习(Supervised Learning)中,我们的样本数据中通常包含p种特征量(features),X1, X2, . . . , Xp。他们有共同的对象(Response),Y。有监督学习的目的简单而言,都是一句话:用X去预测Y。而在无监督学习(Unsupervised Learning)中,我们的样本一般只有p种特征量(features),X1, X2, . . ...原创 2018-05-21 16:32:40 · 3785 阅读 · 0 评论 -
数据科学猫:有监督学习的定义与模型
简介有监督学习是与无监督学习相对应的概念。它是数据分析中最常见的建模形式。一句话解释版本:有监督学习知道预测的主体,它通过寻找并定义自变量(一堆属性,X)与因变量(预测目标,Y)之间的关系,以实现通过X预测Y的目的。数据分析与挖掘体系位置有监督学习的目的性很强。所以在数据分析与数据挖掘中,有监督学习与数据分析的关系更大;无监督学习与数据挖掘的关系更大。但是它们都是数据建模领域的知识。有监督学习在整...原创 2018-06-04 11:49:52 · 7027 阅读 · 1 评论 -
4.3.2无监督学习(二) - 主成分分析(PCA)
主成分分析简称PCA,英文全称是Principal Component Analysis。它是无监督学习中降维模型中的一类,在实际的数据探索与建模中应用十分广泛。原创 2018-05-23 17:35:31 · 7261 阅读 · 0 评论 -
5测试评审(一) - 项目测试流程与阶段
简介测试评审是项目正式交付之前的必要环节。不管是系统、脚本还是报表,在试运行前均需要进行全面细致的测试工作。测试这个东东,也属于其貌不扬,一扬以来把人磨死的那种。要真正在实际中懂得测试,不是要会多少种方法,而是需要了解测试中总共有哪些东西可以测。一句话解释版本:测试中可以测这些:代码,接口,需求,用户。他们分别对应测试中4个主要的模块,即单元测试、集成测试、系统测试、验收测试。数据分析与挖掘体系位...原创 2018-06-04 17:15:03 · 7724 阅读 · 0 评论 -
5测试评审(二) - 项目测试方法
简介上一篇中讲到了测试的整个流程,以及测试的各个阶段。这一篇主要讲在四个测试阶段中常用的一些测试方法。一句话解释版本:这个没什么一句话好解释的,想了半天,只能说测试方法的选择要结合测试中不同的阶段,结合测试用例选择方法吧。...原创 2018-06-05 11:41:26 · 668 阅读 · 0 评论 -
4.4.2分类模型评判指标(二) - ROC曲线与AUC面积
简介ROC曲线与AUC面积均是用来衡量分类型模型准确度的工具。通俗点说,ROC与AUC是用来回答这样的问题的:分类模型的预测到底准不准确?我们建出模型的错误率有多大?正确率有多高?两个不同的分类模型中,哪个更好用?哪个更准确?对于那些嫌太长不想看的同学,就看这两句话就好:如果我们选择用ROC曲线评判模型的准确性,那么越靠近左上角的ROC曲线,模型的准确度越高,模型越理想;如果我们选择用AUC面积评...原创 2018-05-30 12:21:59 · 8731 阅读 · 0 评论 -
3.1数据采集(一) - 数据采集的步骤与方法
简介数据采集就是搜集符合数据挖掘研究要求的原始数据(Raw Data)。原始数据是研究者拿到的一手或者二手资源。数据采集既可以从现有、可用的无尽数据中搜集提取你想要的二手数据,也可以经过问卷调查、采访、沟通等方式获得一手资料。不管用哪种方法得到数据的过程,都可以叫做数据采集。一句话解释版本:数据采集就是怎么获得原始数据,如果把数据采集看成吃饭,自己撸起袖子做饭就是用一手数据,点外卖就是用二手数据。...原创 2018-06-13 17:41:53 · 41888 阅读 · 0 评论 -
4.4.2分类模型评判指标(一) - 混淆矩阵(Confusion Matrix)
简介混淆矩阵是ROC曲线绘制的基础,同时它也是衡量分类型模型准确度中最基本,最直观,计算最简单的方法。一句话解释版本:混淆矩阵就是分别统计分类模型归错类,归对类的观测值个数,然后把结果放在一个表里展示出来。这个表就是混淆矩阵。数据分析与挖掘体系位置混淆矩阵是评判模型结果的指标,属于模型评估的一部分。此外,混淆矩阵多用于判断分类器(Classifier)的优劣,适用于...原创 2018-05-31 15:16:19 · 195520 阅读 · 41 评论 -
4.2数据探索(一) - 数据探索的方法
简介数据探索是在具有较为良好的样本后,对样本数据进行解释性的分析工作。在我看来,数据探索是数据挖掘较为前期的部分。它并不需要应用过多的模型算法。数据探索更偏重于定义数据的本质,描述数据的形态与特征并解释数据的相关性。通过数据探索的结果,我们能够更好的开展后续的数据挖掘与数据建模工作。一句话解释版本:数据探索要弄清楚这些问题:样本数据长什么样子?有什么特点?数据之间有没有关系?样本数据是否能满足建模...原创 2018-06-08 09:53:29 · 17259 阅读 · 0 评论 -
4.3.1有监督学习(二) - 决策树(Decision Tree) - 构建树的核心指标
简介决策树是与有监督学习中的常用方法。决策树的算法多见于分类问题中,即我们常说的分类树(Classification Tree);少数情况下,决策树也可以用于连续问题,即回归树(Regression Tree)。总体而言,决策树是基于树状结构来进行决策的,它模仿了人在面临决定时自然的处理方式,并将这种决策的过程用树的姿态展现出来。一句话解释版本:决策树是在模仿人的决策过程,构造树的指标...原创 2018-06-15 13:19:09 · 3131 阅读 · 1 评论 -
3.4数据预处理(三) - 数据规约(Data Reduction)
简介在数据集成与清洗后,我们能够得到整合了多数据源同时数据质量完好的数据集。但是,集成与清洗无法改变数据集的规模。我们依然需通过技术手段降低数据规模,这就是数据规约(Data Reduction)。数据规约采用编码方案,能够通过小波变换或主成分分析有效的压缩原始数据,或者通过特征提取技术进行属性子集的选择或重造。一句话解释版本:数据规约就是缩小数据挖掘所需的数据集规模,具体方式有维度规...原创 2018-08-09 17:48:29 · 24304 阅读 · 0 评论 -
1.1需求调研(一) - 需求调研的目的
简介需求调研是大多数数据分析师或数据挖掘师都要兼顾的工作。对一个项目来说,需求调研就像是铁路的轨道、飞机的航线,它同时定义了一个项目的核心思想与详细方案。同时需求也是风向标,整个项目的架构、开发、建模、测试将全部围绕着需求调研的结果展开。而需求本身,既可以是High Level的愿景,也可以是Detail Level的准则。需求分析的目的就是在不断的交流中,梳理出逻辑性、体系性强的需求框架,并...原创 2018-08-03 10:15:53 · 9142 阅读 · 0 评论 -
数据科学猫:数据预处理 之 数据清洗(Data Cleansing)
简介由于数据源在实际生活中千奇百怪,因此不经任何处理就进入数据库的数据很可能违背数据质量三要素的要求。用这样的数据在进行后续的数据挖掘,其可靠性更加堪忧。虽然在数据挖掘中,均有过程用于处理缺失数据或异常值,但是这不过是在避免建模的过拟合。如若希望尽可能小让缺失值、噪声等脏数据影响数据挖掘的结果,更有效的方法应是提高数据质量,即进行数据清理过程。一句话解释版本:数据清洗就是通过缺失值处理...原创 2018-08-07 17:12:07 · 27715 阅读 · 0 评论 -
3.4 数据预处理(一) - 数据集成(Data Integration)
简介数据集成(Data Integration)是一个数据整合的过程。通过综合各数据源,将拥有不同结构、不同属性的数据整合归纳在一起,就是数据集成。由于不同的数据源定义属性时命名规则不同,存入的数据格式、取值方式、单位都会有不同。因此即便两个值代表的业务意义相同,也不代表存在数据库中的值就是相同的。因此需要数据入库前进行集成,去冗余,保证数据质量。一句话解释版本:数据集成是将不同来源的...原创 2018-08-08 15:35:16 · 17859 阅读 · 4 评论 -
3.4数据预处理(四) - 数据转换(Data Transform)
简介数据经过集成、清理与规约等步骤后,我们很可能要将数据进行标准化、离散化、分层化。这些方法有些能够提高模型拟合的程度,有些能够使得原始属性被更抽象或更高层次的概念代替。这些方法统一可以称为数据转换(Data Transform)。一句话解释版本:数据转换就是通过标准化、离散化与分层化让数据变得更加一致,更加容易被模型处理。 数据分析与挖掘体系位置数据转换是有数据预处理中的...原创 2018-08-13 12:28:41 · 14173 阅读 · 1 评论 -
数据科学猫:机器学习建模流程
所谓框架,或者说方法论,就是指整个设计数据科学(数据分析与挖掘,机器学习)的项目过程。不管项目领域是金融、电信、医学或者交通,其实只要项目中涵盖数据分析或数据挖掘的应用,项目的步骤大多会有些共通的地方。将这些共性的步骤总结并且归纳为一般性的方法,就变成了数据分析与挖掘的框架。在真正开始数据采集、抽样、清洗,甚至建模之前,一个清晰的框架等同于写作前的草稿。它是一个项目的骨架,能够为数据分析与挖掘...原创 2018-05-09 15:50:42 · 7683 阅读 · 0 评论