数据挖掘
文章平均质量分 74
Lily_我是一个小钢豆
这个作者很懒,什么都没留下…
展开
-
机器学习数据挖掘——模型评估与选择2
在上一篇文章我介绍了评估模型的标准——泛化误差最小,以及浅谈了拟合不足与过拟合的问题(也是要结合训练误差和泛化误差来判断的)。这篇文章将要介绍怎么进行分割数据集使得模型的构造能更有代表性也能使泛化误差的估计更准确。在现实的数据挖掘任务中,我们针对不同的目的往往有很多不同的算法可供选择,能构造出不同的模型,甚至同一种算法的不同参数配置也会产生不同的模型,这就产生了很多问题,这些算法和模型可以...原创 2018-07-26 14:46:19 · 705 阅读 · 0 评论 -
用matplotlib制作马赛克图
几天没写文章了,一直在转载大佬的文章,我都有点不好意思了......anyway!今天教大家用Python中的matplotlib制作马赛克图。进行数据挖掘,数据分析必不可少的两门语言就是R和Python了,这两门语言并不是二择一的,各有各的优点,虽然说Python现在很火,但是R语言的绘图功能也很强大啊。用于分类变量的列联分析里面有一款图,称为马赛克图,但是Python的matplo...原创 2018-08-14 16:34:34 · 1693 阅读 · 0 评论 -
数据预处理—-(数据探索、数据清理、数据集成、数据规约、数据变换)
数据挖掘概念与技术定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价第一章、数据挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体数据,文本数据,图,社会网络和web数据; 挖掘:知识类型、使用的技术、目标应用的技术、挖掘任务分类。衡量取样数据质量的标准:资料完整无缺,各类指标项齐全 数据准确无误,反应的都是正...转载 2018-08-11 10:42:21 · 8611 阅读 · 0 评论 -
数据预处理_数据清理(缺失值、噪声等详细处理)
1、概述实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术:- - 数据清理:可以用来清楚数据中的噪声,纠正不一致。 - - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。 - - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。 - - 数据变换...转载 2018-08-11 10:57:21 · 59338 阅读 · 1 评论 -
银行定期存款产品目标客户的确定——基于逻辑回归(建模前分析)
一、得到数据集:银行定期存款产品营销研究变量:Age:年龄;job:工作类型(行政人员,管理人员,保姆,企业家,学生,蓝领,个体户,技师,退休,服务人员,失业,未知);marital:婚姻状况(已婚,离婚,单身);education:教育水平(初等,中等,高等,未知);default:信用违约(是,否);balance:平均年收支余额;housing:住房贷款(是,否);loan:个人贷款(...原创 2018-08-14 19:54:53 · 5685 阅读 · 0 评论 -
Regression Tree 回归树
1. 引言AI时代,机器学习算法成为了研究、应用的热点。当前,最火的两类算法莫过于神经网络算法(CNN、RNN、LSTM等)与树形算法(随机森林、GBDT、XGBoost等),树形算法的基础就是决策树。决策树因其易理解、易构建、速度快的特性,被广泛应用于统计学、数据挖掘、机器学习领域。因此,对决策树的学习,是机器学习之路必不可少的一步。根据处理数据类型的不同,决策树又分为两类:分类决策树与...转载 2018-08-11 17:13:16 · 694 阅读 · 0 评论 -
逻辑回归直观解释
逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。本文主要详述逻辑回归模型的基础,至于逻辑回归模型的优化、逻辑回归与计算广告学等,请关注后续文章。1 逻辑回归模型 回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因...转载 2018-08-12 19:18:47 · 1254 阅读 · 0 评论 -
银行定期存款产品目标客户的确定——基于逻辑回归
本篇文章将会介绍用Python分析银行定期存款产品目标客户的确定详细建模细节,业务框架分析以及模型的选择与评估分析参见上一篇文章:银行定期存款产品目标客户的确定——基于逻辑回归(建模前分析)1.导入各种模块并读取数据:2.数据预处理:维规约:在之前的分析中基于业务知识最终选定了8个协变量,1个目标变量,5072个样本用于分析,分别是:Age:年龄;job:工作类型(行政人员,...原创 2018-08-15 11:17:53 · 4193 阅读 · 4 评论 -
数据挖掘建模过程中常见的几类错误
统计建模非常像工程学。在工程学中,有多种构建键-值存储系统的方式,每个设计都会构造一组不同的关于使用模式的假设集合。在统计建模中,有很多分类器构建算法,每个算法构造一组不同的关于数据的假设集合。当处理少量数据时,尝试尽可能多的算法,然后挑选最好的一个的做法是比较合理的,因为此时实验成本很低。但当遇到“大数据”时,提前分析数据,然后设计相应“管道”模型(预处理,建模,优化算法,评价,产品化)...转载 2018-08-13 23:28:33 · 1238 阅读 · 0 评论 -
noSQL简要介绍
NoSQL(NoSQL = Not Only SQL ),意即"不仅仅是SQL"。在现代的计算系统上每天网络上都会产生庞大的数据量。这些数据有很大一部分是由关系数据库管理系统(RDBMS)来处理。 1970年 E.F.Codd's提出的关系模型的论文 "A relational model of data for large shared data banks",这使得数据建模和应用程序编...转载 2018-09-11 11:37:21 · 245 阅读 · 0 评论 -
python的学习笔记
最近整理了一下自己以前学习的python入门笔记,给大家发一波。Python的输入和输出:Input(‘你的名字:’)(可以先打印字符串在执行输出的功能)(input函数返回的数据类型为字符串)Print()变量之间用,隔开;可以在函数内部用表达式:100+200,print会自行计算。 Python中的数据类型:整数、浮点数、字符串、布尔值、空值,字典、列表、元组等。Py...原创 2018-09-06 00:43:35 · 300 阅读 · 0 评论 -
如何用增益图和提升图进行模型评估
在评估模型的预测能力上,提升图 (lift chart)和增益图(gain chart)是一种非常有用的图形表达方式。在SPSS中,一个典型的增益图如下所示: 在今天这篇博文中,博主会和大家一起探讨制作增益图的逻辑以及如何解释增益图和提升图。以下博文中,我们会运用一个直邮公司的例子来为大家讲解。假设在以往经验基础上,这家公司知道他们的直邮营销活动的平均响应率是10%。接下来我们继续假设:...转载 2018-08-10 16:21:01 · 5251 阅读 · 0 评论 -
pandas中DataFrame基本操作
怎样删除list中空字符?最简单的方法:new_list = [ x for x in li if x != '' ] 这一部分主要学习pandas中基于前面两种数据结构的基本操作。设有DataFrame结果的数据a如下所示: a b cone 4 1 1two 6 2 0three 6 1 6一、查看数据(查看对象的...转载 2018-08-10 13:47:27 · 13861 阅读 · 0 评论 -
pandas的三种数据结构(dataframe,series,index)
pandas有三种数据结构形式,分别是Series,DataFrame和索引对象。1.SeriesSeries和一维数组很像,只是它的每一个值都有一个索引,输出显示时索引在左,值在右。如果语言无法清晰表达,不妨看段代码,毕竟talk is cheap,show me your code!!!首先导入pandas库:>>from pandas import Serie...原创 2018-08-10 13:45:56 · 2755 阅读 · 0 评论 -
凸优化理论学习
在机器学习和深度学习的工作中,最后一步都是对损失函数的极值计算,而这个极值如果我们能够找到全局极值也就是最小值,这是最好的情况;否则我们就必须想办法把原来的问题进行转化或者尝试其他的方法。这其中用到的方法就是凸优化理论。下面我将对我学习的凸优化理论进行一些整理,知识点可能比较杂碎,但句句是关键和我们所必须了解的。衡量一个问题难易的程度不在于其是否线性,而在于是凸问题还是非凸问题。一阶导...转载 2018-07-30 08:08:40 · 596 阅读 · 0 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
接下来的几篇文章会给大家介绍一些线性模型,一元线性回归,多元线性回归,广义线性模型中的逻辑回归,由Fisher判别分析演变而来的线性判别分析,其中的线性判别分析会用到拉格朗日乘子法和矩阵奇异值,矩阵特征值分解的相关知识,网上有很多优秀的文章。在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法。在有等...转载 2018-07-30 08:24:12 · 3241 阅读 · 0 评论 -
稀疏表示学习
1.提出问题:什么是稀疏表示 假设我们用一个M*N的矩阵表示数据集X,每一行代表一个样本,每一列代表样本的一个属性,一般而言,该矩阵是稠密的,即大多数元素不为0。 稀疏表示的含义是,寻找一个系数矩阵A(K*N)以及一个字典矩阵B(M*K),使得B*A尽可能的还原X,且A尽可能的稀疏。A便是X的稀疏表示。 书上原文为(将一个大矩阵变成两个小矩阵,而达到压缩)“为普通稠密表达的样本找到合适...转载 2018-08-03 16:28:41 · 408 阅读 · 0 评论 -
最小二乘法与岭回归的介绍与对比
一 线性回归(最小二乘法)假设我们有n个样本数据,每个数据有p个特征值,然后p个特征值是线性关系。即对应的线性模型写成矩阵的形式即是Y=XA由于样本与模型不一定百分百符合,存在一些噪声,即误差,用B表示,B也是一个向量即B=Y-XAY为样本值,XA为模型的计算值,即期望值误差的平方的计算公式Xi为行向量,A为列向量。最小二乘法的目标就是取得最小的e对应的A,...转载 2018-08-03 16:29:42 · 755 阅读 · 0 评论 -
矩阵的特征值分解、奇异值分解及其在PCA主成分分析中的应用
主成分分析是通过一组变量的线性组合来解释这组变量的协方差矩阵里面的变异性信息的。以此来达到数据的压缩和根据原变量前前系数大小对数据进行解释。在多元统计分析的学习中,我们通常用主成分分析进行自变量多重共线性问题的处理,进行变量的约减后还可利于数据的聚类分析。简要谈谈主成分分析里面会用到的数学知识:首先是特征值以及特征向量的几何意义:1. 矩阵乘法在介绍特征值与特征向量的几...原创 2018-07-30 13:10:07 · 2125 阅读 · 0 评论 -
机器学习数据挖掘——模型评估与选择(参数与超参数之间的区别)
机器学习中的模型参数和模型超参数在作用、来源等方面都有所不同,而模型超参数常被称为模型参数,这样,很容易对初学者造成混淆。本文给出了模型参数和模型超参数的定义,并进行了对比,指出了二者本质上的区别:模型参数是模型内部的配置变量,可以用数据估计模型参数的值;模型超参数是模型外部的配置,必须手动设置参数的值。 我们在做研究的时候,会碰到很多术语。有时,在不同的研究领域还会出现同样名称的术语。比...转载 2018-07-27 08:16:09 · 1488 阅读 · 0 评论 -
调参与最终模型的补充
以下内容是参数以及调参过程的一点心得,分享给大家。 在机器学习中,一般有两种参数,一个是算法的参数,一个是模型的参数,在算法和算法的参数选定之后,将这个算法应用在数据集上,就训练出了一个模型,这个模型的参数就已经全部确定而不需要我们去调整,所以在机器学习中,我们可以调整的参数只是学习算法的参数,模型的参数是不需要调整的。 我们得到最终模型的流程是,现将总的数据集D分为训...原创 2018-07-27 08:49:42 · 389 阅读 · 0 评论 -
机器学习数据挖掘——模型评估与选择4(模型性能度量)
我在前几篇文章中提到了错误率和精度的问题(具体不记得是哪一篇了......)。 显然,错误率和精度这种模型泛化能力的评价标准只能针对于二分类学习器,或者是多分类学习器;不同的模型有不同的泛化能力的评价标准,这是毋庸置疑的,比如说监督性学习里面的回归任务通常是需要建立一个线性模型用以预测连续值,这时候我们就需要用到均方误差这种性能度量(统计学中有很多种性能度量,均方误差就是典型的一...原创 2018-07-27 09:59:26 · 395 阅读 · 0 评论 -
BP算法的基础——方向导数与梯度
1.方向导数讨论函数在一点沿某一方向的变化率问题(即方向导数).定义 设函数在点的某一邻域内有定义.自点引射线.设轴正向到射线的转角为(逆时针方向:0;顺时针方向:0),并设'(+△,+△)为上的另一点且'∈.我们考虑函数的增量(+△,+△)-与、'两点间的距离的比值.当'沿着趋于时,如果这个比的极限存在,则称这极限为函数在点沿方向的方向导数,记作,即 ...原创 2018-07-30 15:42:09 · 1572 阅读 · 1 评论 -
详解 Pandas 透视表(pivot_table)
偶然间看到一篇介绍pandas透视表的文章,说的很详细,推荐给大家。 介绍也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为 pivot_table。虽然pivot_table非常有用,但是我发现为了格式化输出我所需要的内容,经常需要记住它的使用语法。所以,本文将重点解释pandas中的函数 pivot_table,并教大家如何使用它来进行数据...转载 2018-08-01 08:15:22 · 376 阅读 · 0 评论 -
ython3中filter函数,map函数和reduce函数
filter函数:filter()为已知的序列的每个元素调用给定的布尔函数,调用中,返回值为非零的元素将被添加至一个列表中map函数:map()将函数调用映射到每个序列的对应元素上并返回一个含有所有返回值的列表reduce函数:在Python 3里,reduce()函数已经被从全局名字空间里移除了,它现在被放置在fucntools模块里 用的话要 先引入:>>> ...原创 2018-09-07 00:12:13 · 259 阅读 · 0 评论