自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

转载 SQL中的CONSTRAINT用法总结

主要就是增加数据约束的。 Oracle中的约束简单介绍约束   Including Constraints    在数据库中使用约束(constraints)是为了在该数据库中实施所谓的"业务规则"其实就是防止非法信息进入数据库,满足管理员和应用开发人员所定义的规则集.    ORACLE使用完整性约束(integrity constraints)防止不合法的数据写入数据库,管...

2018-08-31 15:03:39 1225

原创 银行定期存款产品目标客户的确定——基于逻辑回归

本篇文章将会介绍用Python分析银行定期存款产品目标客户的确定详细建模细节,业务框架分析以及模型的选择与评估分析参见上一篇文章:银行定期存款产品目标客户的确定——基于逻辑回归(建模前分析)1.导入各种模块并读取数据:2.数据预处理:维规约:在之前的分析中基于业务知识最终选定了8个协变量,1个目标变量,5072个样本用于分析,分别是:Age:年龄;job:工作类型(行政人员,...

2018-08-15 11:17:53 4279 4

原创 银行定期存款产品目标客户的确定——基于逻辑回归(建模前分析)

一、得到数据集:银行定期存款产品营销研究变量:Age:年龄;job:工作类型(行政人员,管理人员,保姆,企业家,学生,蓝领,个体户,技师,退休,服务人员,失业,未知);marital:婚姻状况(已婚,离婚,单身);education:教育水平(初等,中等,高等,未知);default:信用违约(是,否);balance:平均年收支余额;housing:住房贷款(是,否);loan:个人贷款(...

2018-08-14 19:54:53 5708

原创 用matplotlib制作马赛克图

几天没写文章了,一直在转载大佬的文章,我都有点不好意思了......anyway!今天教大家用Python中的matplotlib制作马赛克图。进行数据挖掘,数据分析必不可少的两门语言就是R和Python了,这两门语言并不是二择一的,各有各的优点,虽然说Python现在很火,但是R语言的绘图功能也很强大啊。用于分类变量的列联分析里面有一款图,称为马赛克图,但是Python的matplo...

2018-08-14 16:34:34 1730

转载 数据挖掘建模过程中常见的几类错误

统计建模非常像工程学。在工程学中,有多种构建键-值存储系统的方式,每个设计都会构造一组不同的关于使用模式的假设集合。在统计建模中,有很多分类器构建算法,每个算法构造一组不同的关于数据的假设集合。当处理少量数据时,尝试尽可能多的算法,然后挑选最好的一个的做法是比较合理的,因为此时实验成本很低。但当遇到“大数据”时,提前分析数据,然后设计相应“管道”模型(预处理,建模,优化算法,评价,产品化)...

2018-08-13 23:28:33 1257

转载 逻辑回归直观解释

逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。本文主要详述逻辑回归模型的基础,至于逻辑回归模型的优化、逻辑回归与计算广告学等,请关注后续文章。1 逻辑回归模型    回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因...

2018-08-12 19:18:47 1281

转载 Regression Tree 回归树

1. 引言AI时代,机器学习算法成为了研究、应用的热点。当前,最火的两类算法莫过于神经网络算法(CNN、RNN、LSTM等)与树形算法(随机森林、GBDT、XGBoost等),树形算法的基础就是决策树。决策树因其易理解、易构建、速度快的特性,被广泛应用于统计学、数据挖掘、机器学习领域。因此,对决策树的学习,是机器学习之路必不可少的一步。根据处理数据类型的不同,决策树又分为两类:分类决策树与...

2018-08-11 17:13:16 707

转载 数据预处理_数据清理(缺失值、噪声等详细处理)

1、概述实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术:- - 数据清理:可以用来清楚数据中的噪声,纠正不一致。 - - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。 - - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。 - - 数据变换...

2018-08-11 10:57:21 59591 1

转载 数据预处理—-(数据探索、数据清理、数据集成、数据规约、数据变换)

数据挖掘概念与技术定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价第一章、数据挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体数据,文本数据,图,社会网络和web数据; 挖掘:知识类型、使用的技术、目标应用的技术、挖掘任务分类。衡量取样数据质量的标准:资料完整无缺,各类指标项齐全 数据准确无误,反应的都是正...

2018-08-11 10:42:21 8727

转载 如何用增益图和提升图进行模型评估

在评估模型的预测能力上,提升图 (lift chart)和增益图(gain chart)是一种非常有用的图形表达方式。在SPSS中,一个典型的增益图如下所示: 在今天这篇博文中,博主会和大家一起探讨制作增益图的逻辑以及如何解释增益图和提升图。以下博文中,我们会运用一个直邮公司的例子来为大家讲解。假设在以往经验基础上,这家公司知道他们的直邮营销活动的平均响应率是10%。接下来我们继续假设:...

2018-08-10 16:21:01 5331

转载 pandas中DataFrame基本操作

怎样删除list中空字符?最简单的方法:new_list = [ x for x in li if x != '' ] 这一部分主要学习pandas中基于前面两种数据结构的基本操作。设有DataFrame结果的数据a如下所示: a b cone 4 1 1two 6 2 0three 6 1 6一、查看数据(查看对象的...

2018-08-10 13:47:27 13921

原创 pandas的三种数据结构(dataframe,series,index)

pandas有三种数据结构形式,分别是Series,DataFrame和索引对象。1.SeriesSeries和一维数组很像,只是它的每一个值都有一个索引,输出显示时索引在左,值在右。如果语言无法清晰表达,不妨看段代码,毕竟talk is cheap,show me your code!!!首先导入pandas库:>>from pandas import Serie...

2018-08-10 13:45:56 2773

原创 Access denied for user 'root'@'localhost' (using password:YES) 解决方案

关于昨天下午说的MySQL服务无法启动的问题,解决之后没有进入数据库,就直接关闭了电脑。今早打开电脑,开始-运行 输入“mysql -uroot -pmyadmin”后出现以下错误:“Access denied for user 'root'@'localhost' (using password:YES)”直接输入“mysql” 也回报类似的错误:应该是:“Access deni...

2018-08-09 14:05:09 531

转载 为什么mysql设置了密码之后,本地还可以直接访问,不需要输入密码就可以登录数据库了?

今天开发中在Centos7中安装MySQL5.6版本后,在表中新建了一个weicheng的账户,并且设置了密码,但是在用weicheng账号登陆mysql发现,如果使用“mysql -uweicheng -p”登陆会报错,即使密码正确也不能登录,最后发现,直接用“mysql -uweicheng”不输入密码也可以登陆。后来,查询了资料原因是:应为数据库里面有空用户,通过select * fro...

2018-08-09 13:42:14 1885

转载 mysql 使用order by field() 自定义排序

一、mysql field自定义排序函数的格式 order by field(value,str1,str2,str3,str4,,,,,,strn)其中value后面的参数自定义,不限制参数个数 含义将获取出来的数据根据str1,str2,str3,str4等的顺序排序...

2018-08-08 10:04:44 1661

转载 数据库SQL语句 SELECT LIKE like用法详解

在SQL结构化查询语言中,LIKE语句有着至关重要的作用。LIKE语句的语法格式是:select * from 表名 where 字段名 like 对应值(子串),它主要是针对字符型字段的,它的作用是在一个字符型字段列中检索包含对应子串的。A:% 包含零个或多个字符的任意字符串: 1、LIKE'Mc%' 将搜索以字母 Mc 开头的所有字符串(如 McBadden)。2、LIKE'%ing...

2018-08-06 18:24:17 14726

原创 向MySQL数据库表内导入txt出现错误情况

1.ERROR 1148 (42000): The used command is not allowed with this MySQL version错误语句:mysql> LOAD DATA LOCAL INFILE '/var/lib/mysql/pet.txt' INTO TABLE tbl_pet;出错原因:多了一个LOCAL关键词。当文件在客户机端时要写LOCAL,在服...

2018-08-06 10:34:19 2740

转载 最小二乘法与岭回归的介绍与对比

一 线性回归(最小二乘法)假设我们有n个样本数据,每个数据有p个特征值,然后p个特征值是线性关系。即对应的线性模型写成矩阵的形式即是Y=XA由于样本与模型不一定百分百符合,存在一些噪声,即误差,用B表示,B也是一个向量即B=Y-XAY为样本值,XA为模型的计算值,即期望值误差的平方的计算公式Xi为行向量,A为列向量。最小二乘法的目标就是取得最小的e对应的A,...

2018-08-03 16:29:42 781

转载 稀疏表示学习

1.提出问题:什么是稀疏表示 假设我们用一个M*N的矩阵表示数据集X,每一行代表一个样本,每一列代表样本的一个属性,一般而言,该矩阵是稠密的,即大多数元素不为0。 稀疏表示的含义是,寻找一个系数矩阵A(K*N)以及一个字典矩阵B(M*K),使得B*A尽可能的还原X,且A尽可能的稀疏。A便是X的稀疏表示。 书上原文为(将一个大矩阵变成两个小矩阵,而达到压缩)“为普通稠密表达的样本找到合适...

2018-08-03 16:28:41 419

转载 详解 Pandas 透视表(pivot_table)

偶然间看到一篇介绍pandas透视表的文章,说的很详细,推荐给大家。 介绍也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为 pivot_table。虽然pivot_table非常有用,但是我发现为了格式化输出我所需要的内容,经常需要记住它的使用语法。所以,本文将重点解释pandas中的函数 pivot_table,并教大家如何使用它来进行数据...

2018-08-01 08:15:22 418

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除