数据挖掘
qq_20880939
这个作者很懒,什么都没留下…
展开
-
电力窃漏电用户自动识别
本文是基于《Python数据分析与挖掘实战》学习笔记 1.背景与挖掘目标 传统意义上的防止用户窃漏电的方式主要是通过人工的定期进行巡检,定期校验电表等方式,这种方式存在诸多的弊端,我们期望是这些数据提取出窃漏电用户的关键特征,构建窃漏电用户识别模型,就能够自动对其进行检查,判断用户是否存在窃漏电的行为. 本次数据挖掘建模的目标如下:(1). 归纳出窃漏电用户的关键特征,构建窃漏电用户的识...原创 2018-04-08 11:41:09 · 3934 阅读 · 0 评论 -
MySQL -- 数据库基础入门
MySQL数据库入门,首先要会一些基本的操作1.创建数据库、表我们想创建一个book的数据库为了保持好的习惯,在创建出数据之前先利用 show databases语句检查是否存在该数据库,如果不存在则进行创建在创建好数据库后,利用use book语句打开我们刚才创建的数据库,这是创建表之前必要的操作然后利用create table tablename来创建表上面我们...原创 2018-11-07 10:27:49 · 222 阅读 · 0 评论 -
数据挖掘上的数据描述
当我们进行数据分析之前要做一些准备的工作,就是让我们对我们拿到的数据能够有一个具体的感知,方便以后的处理工作,具体做到那些工作那?可以从下面两个方面对数据有一个大概的了解.1.基本的数据描述: >>中心趋势度量: 比如均值,中位数,众数,中列数等 >>散布度量: 比如有极差,方差,四分位数等,其中盒型图是对这些度量的总结,根据主观度量,可以利用盒型图...原创 2018-10-19 19:49:13 · 460 阅读 · 0 评论 -
递归式特征消除:Recursive feature elimination
本文来源:点击打开链接简述特征的选取方式一共有三种,在sklearn实现了的包裹式(wrapper)特诊选取只有两个递归式特征消除的方法,如下:recursive feature elimination ( RFE )通过学习器返回的 coef_ 属性 或者 feature_importances_ 属性来获得每个特征的重要程度。 然后,从当前的特征集合中移除最不重要的特征。在特征集合上不断的重复...转载 2018-04-13 11:23:08 · 4393 阅读 · 0 评论 -
数据规约中的主成分分析
本文参考《Python数据分析与挖掘实战》一书数据规约是产生更小但保持原数据完整性的新数据集,在规约后的数据集上进行分析与挖掘将会更有效率.在数据规约中,有很多方法对其实现,如合并属性,逐步向前选择,逐步向后选择,决策树归纳,主成分分析。主成分分析是一种用于连续属性的数据降维方法,它构造了原始数据的一个正交变换,新空间的基底去除了原始空间基底下的数据的相关性,只需要用少数的新变量就能够解释原始数据...原创 2018-04-13 09:13:06 · 813 阅读 · 0 评论 -
数据挖掘中的分类与预测
--本文是《Python数据分析与挖掘实战》的学习笔记经过数据探索与数据预处理,得到了可以直接建模的数据.根据挖掘目标与数据形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型.分类与预测问题是预测问题的两种主要的类型,分类主要是预测分类标号(基于离散属性的),而预测是建立连续值函数模型,预测给定自变量对应的因变量的值.一.实现过程(1)分类 分类属于有监督学习的范畴,大致上...原创 2018-04-05 21:37:22 · 16577 阅读 · 0 评论 -
拉格朗日插值法对数据挖掘中缺失值处理
本文参考《Python数据分析与挖掘实战》一书。 对于数据挖掘的缺失值的处理,应该是在数据预处理阶段应该首先完成的事,缺失值的处理一般情况下有三种方式:1.删掉缺失值数据。2不对其进行处理 3.利用插补法对数据进行补充第一种方式是极为不可取的,如果你的样本数够多,删掉数据较少,这种情况下还是可取的,但是,如果你的数据本身就比较少,而且还删除数据,这样会导致大量的资源浪费,将丢弃了大量隐藏在这些记录...原创 2018-04-12 14:55:28 · 7496 阅读 · 5 评论 -
Python中的统计作图
Python主要作图库是Matplotlib,Pandas基于Matplotlib并对某一些命令进行了简化,因此在作图上,通常是这两者相互结合着使用.1.正弦曲线 # -*- coding: utf-8 -*-"""Created on Thu Apr 12 10:32:05 2018@author: Administrator"""import numpy as npimport...原创 2018-04-12 11:54:45 · 8219 阅读 · 0 评论 -
数据挖掘中的异常值分析
数据挖掘中异常值分析是保证数据质量的前提,它在数据处理的阶段是数据探索阶段,总之,找出数据的异常值,有利于我们最终得出的模型的稳定性。异常值分析主要有三种方法:1.简单的统计量分析: 我们可以先对采集到的数据做一个描述性的估计,最常用的方法就是最大值与最小值.用来判断这个变量是否超出常规的人们的理解等,你比如说,我们可以对一个人的年龄的属性列进行统计,假设得到的年龄最小值为-1,最大值为130...原创 2018-04-11 10:27:27 · 5519 阅读 · 0 评论 -
分类与预测算法的评价
分类与预测的任务是在数据挖掘中经常完成的任务,那么这带来的一个问题是我们如何对一个分类与预测的模型进行评价那?评价有很多的方式,你比如说:均方误差法,这应该是误差分析的综合指标的方式之一,这在神经网络是经常用到的.这里我们主要关注分类或者预测的结果与实际值之间的差距,有一个很重要的模型,是经常用到关于其分类的评价的,即ROC曲线.ROC曲线在我以前的博客中已经有实现的具体代码,这里要详细展开详细分...原创 2018-04-14 15:43:19 · 1283 阅读 · 0 评论 -
Python决策树实现
本文参考《Python数据分析与挖掘实战》一书决策树在分类、预测、规则提取等领域都有着广泛的应用。关于决策树的算法,有ID3,C4.5,CART分类算法.ID3算法基于信息熵来选择最佳的测试属性,这句话的意思就是,我们的决策树毕竟要形成一颗由根节点向下的树,每一个叶节点对应一个分类(即标签),每一个非叶节点对应其属性,属性是很多的,我们如何选择那?这就利用了信息论中的信息熵的知识.下面展示一下利用...原创 2018-04-14 13:39:05 · 968 阅读 · 0 评论 -
航空公司客户价值分析
本文是《Python数据分析与挖掘实战》的学习笔记.1.背景与挖掘目标: 客户的价值分析首先要对客户进行分类,区分无价值的客户,高价值的客户,针对不同的客户群体,制定优化的个性化方案,为了实现航空公司的利益的最大化,我们可以将营销的资源分配给大量的高价值客户的群体。数据挖掘实现的目标是:1> 借助航空公司的客户数据,对客户进行分类.2>对不同的客户类别进行特征的分析,比较不同类型客户的...原创 2018-04-09 11:22:19 · 7439 阅读 · 0 评论 -
MySQL数据库--j基础入门
视图视图在数据库上经常要用到,视图就是数据库的虚表,存在于内存上,数据库的视图的引入,为操作表带来了很大的方便,我们可以将我们感兴趣的属性从基表上提取出来,创建一个视图,然后我们在这个视图上进行操作,同时很明显提升了效率,另外也提升安全性与隐私性,比如我们可以将公司的个人信息创建一个视图。,其中工资属性栏是一个很隐私的属性,因此我们就可以将其去掉.基表:针对这个基表,我们创建一个只...原创 2018-11-07 11:02:39 · 224 阅读 · 0 评论
分享