数据分析
文章平均质量分 81
TOMOCAT
知乎可私信: TOMOCAT
展开
-
[R语言]数据可视化包ggplot2教程及实例
前言ggplot是一个拥有一套完备语法且容易上手的绘图系统,在Python和R中都能引入并使用,在数据分析可视化领域拥有极为广泛的应用。本篇从R的角度介绍如何使用ggplot2包,首先给几个我觉得最值得推荐的理由:采用“图层”叠加的设计方式,一方面可以增加不同的图之间的联系,另一方面也有利于学习和理解该package,photoshop的老玩家应该比较能理解这个带来的巨大便利适用范围广,拥...原创 2020-05-03 19:46:01 · 6461 阅读 · 1 评论 -
[DataAnalysis]机器学习分类——基于规则的分类器
基于规则分类器的特点1、规则集的表达能力基于等价于决策树2、基于规则的分类器通常用于产生更易于解释的描述性模型,而模型的性能却可与决策树分类器相媲美。3、很多基于规则的分类器(如)采用的基于类的规则定序方法非常适用于处理类分布不平衡的数据集。分类规则表述形式基于规则的分类器是使用一组规则来对记录进行分类的技术。每一个分类规则可以表示为如下形式:规则左边称为规则前件,它是...原创 2018-09-09 22:15:50 · 38019 阅读 · 0 评论 -
[DataAnalysis]数据挖掘导论——决策树详解
Hunt算法Hunt是许多决策树算法的基础,包括ID3、C4.5和CART。Hunt:递归地使用属性测试条件直至中所有记录属于同一类。(1)如果中所有记录都属于同一类,则是叶结点,用标记。(2)如果中包含属于多个类的记录,则选择一个属性测试条件,将记录划分为较小的子集。对于测试条件的每个输出,创建一个子女结点,并根据测试结果将中的记录分布到子女结点中。然后,对于每个子女结点,递归...原创 2018-09-09 17:42:28 · 28837 阅读 · 0 评论 -
[DataAnalysis]数据探索
汇总统计1、频率与众数2、百分位数3、位置度量:均值和中位数4、散布度量:极差和方差可视化1、少量属性的可视化茎叶图直方图二维直方图盒状图饼图百分位数图和经验累积分布函数2、可视化时间空间数据等高线图曲面图矢量场图 ...原创 2018-09-09 15:50:49 · 26681 阅读 · 0 评论 -
[DataAnalysis]变量相似性和相异性的度量
变量的相异度:距离1、欧几里得距离2、闵可夫斯基距离相似度1、简单匹配系数2、Jaccard系数假设每个非对称的二元属性对应于商店的一种商品,则1表示该商品被购买,而0表示该商品未被购买。由于未被购买的商品数远大于被其购买的商品数,因而像SMC这样的相似性度量将会判别所有的事务都是类似的。这样,常常使用Jaccard系数来处理仅包含非对称的二元属性的对象。...原创 2018-09-09 15:43:46 · 28613 阅读 · 0 评论 -
[DataAnalysis]常用数据预处理方法汇总
常用的包括聚集、降维、离散化和标准化等聚集aggregating将两个或多个对象合并成单个对象,但是难免会丢失细节。抽样sampling统计学使用抽样是因为得到感兴趣的整个数据集成本太高、太费时间,但是数据挖掘使用抽样是因为处理所有的数据的费用成本太高、太费时间。抽样方法包括:简单随机抽样;分层抽样等。维归约(降维)数据集可能包含大量特征,选择维归约是维度降低许多数据挖...原创 2018-09-08 18:37:26 · 30646 阅读 · 0 评论 -
[DataAnalysis]机器学习数据类型和数据质量
数据类型1、属性:属性是对象的性质或者特性,它因对象而异,或随着时间变化。我们根据属性值的运算定义下面四种属性类型:数据集的一般特性1、维度:分析高维数据有时会陷入维灾难,数据预处理的一个重要动机就是减少维度。2、稀疏性:有些数据集如果具有非对称特征的数据集(一个对象的大部分属性上的值都是0,出现非零属性值才是最重要的)。实际上稀疏性是一个优点,因为只有非零值才需要存储...原创 2018-09-08 18:04:25 · 29352 阅读 · 0 评论 -
[机器学习算法]决策树详解(属性划分+剪枝+缺失值/连续值处理)
决策树简述决策树是一种用于对实例进行分类的树形结构。决策树由节点(node)和有向边(directed edge)组成。节点分成根节点、内节点(表示一个特征或者属性的测试条件)和叶子节点(表示一个分类)。决策树的生成是一个递归过程。在决策树算法中,有三种情形会导致递归返回。(1)当前结点包含的样本全属于同一类别,无需划分;(2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分。(...原创 2018-09-04 16:14:21 · 31272 阅读 · 0 评论 -
[DataAnalysis]数据分析知识图谱和建模思路图谱
一、数据分析知识图谱二、建模思路原创 2018-09-04 14:13:44 · 33126 阅读 · 0 评论 -
[机器学习必知必会]类别不平衡问题
类别不平衡对数据分析的影响大部分的分类学习方法都有一个默认的假设:不同类别的训练样例数目相当。如果不同类别的训练样例数目稍有差别,通常影响不大。比如如果一个1000个样例的数据集中,有998个反例只有两个正例。那么学习方法只需要返回一个预测值斗士反例的模型则正确率就可以达到99.8%,这显然是不合理的。类别不平衡问题定义类别不平衡(class imblance)指分类问题中不同类别的训...原创 2018-08-31 17:31:25 · 24575 阅读 · 0 评论 -
[DataAnalysis]机器学习中如何用二分类学习器解决多分类问题
一、问题概述考虑个类别。多分类问题的基本思路是“拆解法”,将多分类任务拆为若干个二分类任务求解。经典的拆分策略有三种:一对多、一对其余和多对多。二、拆分方法1、将个类别两两配对,形成个二分类任务。在测试阶段,新样本被提交给所有二分类器,然后我们将得到个分类结果,最终结果可通过投票产生:即把被预测得最多的类别作为最终分类结果。2、将一个类的样例作为正例,其他所有类的样例最为反...原创 2018-08-27 15:44:07 · 31315 阅读 · 0 评论 -
[机器学习算法]BP神经网络原理简介
M-P神经元模型神经元接收到来自个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收的总输入值将于神经元的阈值进行比较,然后通过“激活函数”处理以产生神经元的输出。感知机与多层网络感知机由两层神经元组成,输入层接收外界输入信号后传递给输出层,输出层是M-P神经元。感知机能容易地实现与、或、非运算。感知机只能解决线性可分问题。要解决非线性可分问...原创 2018-09-06 18:11:22 · 34112 阅读 · 0 评论 -
[机器学习必知必会]全局最小与局部极小
梯度法众所周知,基于梯度的搜索是使用最为广泛的参数寻优方法。在此类方法中,我们从某些初始解出发,迭代寻找最优参数值。每次迭代中,我们先计算误差函数在当前点的梯度,然后根据梯度确定搜索方向。例如由于负梯度方向是函数值下降最快的方向,因此梯度下降法就是沿着负梯度方向搜索最优解。若误差函数在当前点的梯度为零,则已达到局部最小,更新量为零,参数的迭代更新停止。缺陷:当误差函数具有多个局部最小,...原创 2018-09-07 09:50:52 · 30350 阅读 · 0 评论 -
[机器学习必知必会]如何理解机器学习中的正则化
正则化综述机器学习中经常会在损失函数中加入正则项,称之为正则化(Regularize)。目的:防止模型过拟合原理:在损失函数上加上某些规则(限制),缩小解空间,从而减少求出过拟合解的可能性例子:以最简单的线性模型为例,我们在统计学习中接触到线性回归的最小二乘估计和正则化的岭回归与拉索回归。最小二乘估计:岭回归:在数学上我们可以证明岭估计的参数模要严格小于最小二乘估计的...原创 2019-01-25 17:15:44 · 33767 阅读 · 0 评论 -
[DataAnalysis]关联分析
基本概念和算法一般应用于购物篮事务( market basket transaction),表中每一行对应一个事务,包含一个唯一标识TID和给定顾客购买的商品的集合。购物篮事务的例子 TID 项集 1 {面包,牛奶} 2 {面包,尿布,啤酒,鸡蛋} 3 {牛奶,尿布,啤酒,可乐} 4 {面包,牛奶,尿布,啤酒} 5 ...原创 2018-09-30 18:53:20 · 29193 阅读 · 0 评论 -
[DataAnalysis]点互信息
参考:https://www.jianshu.com/p/79de56cbb2c7点互信息(pointwise mutual information)用于衡量两个事物之间的相关性,比如两个词。公式如下:这里的来源于信息论,可以简单地理解为当对取之后就将一个概率转换为信息量,以2为底时可以简单理解为用多少个bits可以表示这个变量。例子我们想衡量like这个词的情感。我们可以预先...原创 2018-10-18 11:48:57 · 32247 阅读 · 0 评论 -
[DataAnalysis]贝叶斯分类器
假设有种可能的类别标记,即,是将真实标记为的样本误分类为的所产生的损失。基于贝叶斯概率公式:其中是类“先验”概率,是样本x相对于类标记的类条件概率。朴素贝叶斯分类器使用贝叶斯公式来估计后验概率的主要困难是类条件概率是所有属性上的联合概率,难以从有限的训练样本中直接估计得到。为避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。贝叶斯公司改写...原创 2018-10-05 19:13:21 · 27586 阅读 · 0 评论 -
[DataAnalysis]正则化和L1/L2范数
参考自:https://blog.csdn.net/jinping_shi/article/details/52433975https://www.cnblogs.com/weizc/p/5778678.html问题描述一般而言,监督学习的目标函数是:第一项衡量模型预测值与真实值的误差,即拟合情况。第二项是对参数的规则化函数来做模型的复杂度约束。正则化机器学习中损失函数...原创 2018-09-07 17:07:09 · 27454 阅读 · 0 评论 -
[DataAnalysis]为什么说熵是不确定性的度量
参考:https://www.zhihu.com/question/19753084/answer/32205378类似其他度量,我们希望对一个事情的随机性有一个度量,当一个事情是确定发生的时候,熵是最小的。随着事情的随机性越大,熵也相应地越大。以抛硬币为例:如果硬币是完全均匀的,正面和反面的概率完全一致,那么最终硬币的结果不会偏向任何一种情况,从而熵是最大的。数学定义熵是一个...原创 2018-09-13 10:57:52 · 36286 阅读 · 0 评论 -
[DataAnalysis]机器学习常见损失函数
损失函数 公式 hinge损失函数 指数损失函数 对率损失函数原创 2018-09-07 16:19:18 · 28193 阅读 · 0 评论 -
[DataAnalysis]支持向量机的软间隔与正则化
由硬间隔转为软间隔理想化的支持向量机存在一个超平面将不同类的样本完全划分开。然而在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中完全线性可分。退一步说,即便恰好找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合造成的。因此缓解该问题的办法是允许支持向量机在某些样本上出错,为此要引入“软间隔”的概念。如下图所示:即允许某些样本不满...原创 2018-09-07 15:41:08 · 27794 阅读 · 0 评论 -
[DataAnalysis]支持向量机解决线性不可分问题——核函数
在实际碰到的问题中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面。我们可以将原始空间映射到一个更高维的空间,使得样本在这个特征空间内线性可分,从而可以找到合适的超平面。核函数对SVM目标函数的变化记表示将映射后的特征向量。在高维特征空间中划分超平面所对应的模型可表示为:对应的对偶问题(拉格朗日乘子——消除参数,见https://blog.csdn.net/TOM...原创 2018-09-07 15:14:27 · 29874 阅读 · 0 评论 -
[机器学习算法]支持向量机SVM原理简介
一、问题和超平面描述给定训练集分类学习最基本的想法就是基于训练集在样本空间中找到一个划分超平面,将不同类别的样本分开,但能将训练样本分开的划分超平面可能有很多,如下图所示:直观来看,应该去找位于两类训练样本“正中间”的划分超平面,因为该平面受影响最小,从而产生的分类结果是最鲁棒的,对未见示例的泛化能力最强。1、划分超平面记2、样本空间中任意点到超平面的距离:3、...原创 2018-09-07 12:14:37 · 27767 阅读 · 0 评论 -
[机器学习算法]线性模型(逻辑回归+LDA)
一、基本形式二、线性回归给定数据集,线性回归即试图学得一个线性模型以尽可能准确地预测实值输出标记。1、模型2、参数估计方法,通过偏导等于0得到最小二乘估计3、变形(1)对数线性回归(2)广义线性模型,其中是单调可微函数三、对数几率回归1、单位跃阶函数和对数几率函数单位阶跃函数:2、对数几率函数注:逻辑回归的原理就是把线性回...原创 2018-08-26 19:02:30 · 28917 阅读 · 0 评论 -
[机器学习必知必会]泛化误差率的偏差-方差分解
一、期望泛化误差的偏差-方差分解偏差-方差分解试图对机器学习算法的期望泛化误差率进行拆解。记为测试样本,为训练集D上学习得到的模型在上的预测输出,为在数据集中的标记,为的真实标记。对算法的期望泛化误差进行分解:得到:即泛化误差可分解为偏差、方差与噪声之和。其中偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变...原创 2018-08-12 19:56:52 · 30824 阅读 · 2 评论 -
[DataAnalysis]基于统计假设检验的机器学习模型性能评估——泛化误差率的统计检验
一、为什么需要统计假设检验衡量学习器性能看起来P-R曲线和ROC曲线可以解决学习器的性能评估问题,然而机器学习中性能比较这件事情比想象中复杂得多。原因如下:(1)我们想比价的是泛化性能,然而通过实验评估方法我们得到的是测试集上的性能(2)测试集上的性能与测试集本身的选择有很大关系,且不论使用不同大小的测试集会得到不同的结果,即便用相同大小的测试集,若包含的测试样例不同,测试结果也会有所...原创 2018-08-12 16:02:47 · 30407 阅读 · 0 评论 -
[DataAnalysis]数据分析基础-假设检验原理详解和主要应用:参数假设检验、分布拟合检验和非参数检验
假设检验分为参数假设检验和分布拟合假设检验和非参数检验一、假设检验的思想:建立假设 选择检验统计量并给出拒绝域形式 选择显著性水平 给出拒绝域 做出判断二、p值:利用样本观测值能够作出拒绝原假设的最小显著性水平三、参数假设检验类型:详见茆诗松正态总体参数假设检验 指数参数假设检验,对指数分布的参数θ进行假设检验2nxθ0服从自由度为2n的卡方分布。 比率p的假设检验。...原创 2018-07-19 20:43:32 · 25910 阅读 · 0 评论 -
[DataAnalysis]定序回归模型OLM深入浅出
一、为什么使用定序回归: 定序变量介于连续变量和定类变量之间,是在测量层次上被分为相对次序的不同类别,但并不连续。 如果对定序变量使用多分类logit模型(MNL),那么会无视数据内在的排序从而导致排序信息的缺失,使得统计结果因为遗漏掉排序信息而丧失统计效率。如果采用OLS,那么就是将定序变量作为连续变量处理,会导致人为的信息膨胀。因此,针对定序因变量,需采用对...原创 2018-07-23 20:30:25 · 37878 阅读 · 0 评论 -
[DataAnalysis]多元线性回归深入浅出-案例+模型假设+参数估计方法+模型评判方法+变量选择+多重共线性问题
一、案例介绍1、目的:利用上市公司当年的公开财务指标预测来年盈利情况最重要的投资人决策依据。2、数据来源:随机抽取深市和沪市2002和2003年的500个上市公司样本预测来年的净资产收益率。3、解释变量包括:资产周转率、当年净资产收益率、债务资本比率、市盈率、应收账款/主营业务收入、主营业务利润、存货/资产总计(反映公司存货状况)、对数资产总计(反映公司规模)二、描述性分析1、...原创 2018-07-23 20:19:43 · 35545 阅读 · 0 评论 -
[机器学习必知必会]集成学习Boosting、Boostrap和Bagging算法介绍
集成学习算法简介: (1)原理:集成学习在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效率不是很高。目前接触较多的集成学习主要有2种:基于Boosting的和基于Bagging,前者的代表算法有Adaboost、GBDT、XGBOOST、后者的代表算法主要是随机森林。集成学习的主要思想是利用一定的手段学习出多个分类器,而且这多个分类器要求是弱分类...原创 2018-06-04 14:20:15 · 29762 阅读 · 0 评论 -
[DataAnalysis]数据挖掘常见的几种分类算法
一、数据挖掘任务分类1、预测性和描述性的主要区别在于是否有目标变量2、预测性包括分类和回归:(1)分类:输出变量为离散型,常见的算法包括(朴素)贝叶斯、决策树、逻辑回归、KNN、SVM、神经网络、随机森林。(2)回归:输出变量为连续型。3、描述性包括聚类和关联:(1)聚类:实现对样本的细分,使得同组内的样本特征较为相似,不同组的样本特征差异较大。例如零售客户细分。(2)关联::指的是我们想发现数据原创 2018-01-19 10:10:44 · 58584 阅读 · 0 评论 -
[DataAnalysis]时间序列分析
一、平稳性1、严平稳与宽平稳的定义,一般我们都用二阶宽平稳2、为什么要研究平稳性:若对非平稳时间序列使用现有的方法估计,则会得到虚假回归,估计模型无效。3、ADF与DF统计量检验时间序列的平稳性。二、平稳时间序列分析1、MA(q)自相关系数q阶截尾2、AR(p)偏自相关系数p阶截尾3、ARMA(p,q)平稳性只依赖于自回归部分,可逆性只依赖于移动平均部分。4、看图判断阶数三、ARIMA(p,q)1原创 2018-01-18 14:01:39 · 32778 阅读 · 0 评论 -
[DataAnalysis]回归分析细节
1、不可解释变差与可解释变差:SST=SSE+SSR2、原假设与备择假设3、回归常见的问题4、R方和调整后的R方原创 2018-01-18 09:20:11 · 24150 阅读 · 0 评论 -
[DataAnalysis]数据挖掘——应用
一、典型应用二、问题分类原创 2018-01-17 17:59:29 · 23797 阅读 · 0 评论 -
[Python]《从入门到实践》第九章-类
#创建和使用类class Dog(): def __init__(self,name,age): self.name = name self.age = age def sit(self): print(self.name.title()+" is now sitting.") def roll...原创 2018-07-25 19:53:34 · 24640 阅读 · 0 评论 -
[SQL]对取出来的数据构造实验组和对照组的方法
select idfrom tb_namewhere id is not nulland cast(id%100 as int) not between 50 and 59;--即抽取十分之一作为实验组原创 2018-07-25 20:05:58 · 26101 阅读 · 0 评论 -
[DataAnalysis]机器学习预测模型评估与性能度量——衡量模型泛化能力的指标
一、回归任务在预测任务中,给定样例,要评估学习器的性能,就要把预测结果与真实标记与进行比较。回归任务中最常用的性能度量是“均方误差”(mean squared error,MSE)。下面我们主要介绍分类任务中常用的性能度量。二、分类任务1、错误率与精度错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例。2、查准率、查全率与F1(1)查准率Pr...原创 2018-08-12 00:09:33 · 33847 阅读 · 1 评论 -
[DataAnalysis]机器学习方法中产生测试集/训练集的方法汇总
在商业应用中,我们经常会有多个学习算法可供选择,甚至对同一个学习算法,使用不同的参数配置时也会产生不同的模型。那么我们应该选择哪一个学习算法,使用哪一种参数配置呢。理想的解决方法是对候选模型的泛化误差进行评估,然后选择泛化误差最小的模型。但是又会陷入如何直接获得泛化误差的问题中。而只依靠训练误差又会因为过拟合现象的存在而不适用作为标准。一、评估方法:虽然无法直接获得模型的泛化误差,但是我们...原创 2018-08-11 19:33:39 · 30248 阅读 · 0 评论 -
[DataAnalysis]参数假设检验和分布拟合检验
假设检验分为参数假设检验和分布拟合假设检验和分参数检验一、假设检验的思想:1、建立假设2、选择检验统计量并给出拒绝域形式3、选择显著性水平4、给出拒绝域5、做出判断二、p值:利用样本观测值能够作出拒绝原假设的最小显著性水平三、参数假设检验类型:详见茆诗松1、正态总体参数假设检验2、指数参数假设检验,对指数分布的参数θ进行假设检验服从自由度为2n的卡方分布。...原创 2018-08-11 18:04:57 · 32372 阅读 · 0 评论 -
[机器学习算法]机泊松回归算法原理详解和应用
一、为什么计数数据需要泊松回归 如果采用普通回归分析,则线性回归模型如下,因变量是非负整数,而等式右边可以是任意小数,从而线性模型不适用。 0-1变量回归和定序回归不能够分析是因为这两种回归模型处理的都是没有数值意义的数据。但是,计数数据确实是有数值意...原创 2018-07-22 21:46:14 · 29806 阅读 · 0 评论