机器学习与统计建模
文章平均质量分 76
starter_zheng
这个作者很懒,什么都没留下…
展开
-
机器学习与统计建模 —— 归一化和标准化
归一化(Min-Max Normalization)特点1、对不同特征维度进行伸缩变换 2、改变原始数据的分布。使各个特征维度对目标函数的影响权重是一致的(即使得那些扁平分布的数据伸缩变换成类圆形) 3、对目标函数的影响体现在数值上 4、把有量纲表达式变为无量纲表达式 。好处1、提高迭代求解的收敛速度 2、提高迭代求解的精度缺点1、最大值与最小值非常容易受异常点原创 2018-01-31 12:24:13 · 7418 阅读 · 0 评论 -
机器学习 —— 集成学习
集成学习是什么? 目前,有三种常见的集成学习框架:bagging,boosting和stacking。国内,南京大学的周志华教授对集成学习有很深入的研究,其在09年发表的一篇概述性论文《Ensemble Learning》对这三种集成学习框架有了明确的定义,概括如下:bagging:从训练集从进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果:...原创 2018-02-18 15:19:57 · 923 阅读 · 0 评论 -
关联规则Apriori算法及实现(python)
一、概念表1 某超市的交易数据库 交易号TID 顾客购买的商品 交易号TID 顾客购买的商品 T1 bread, cream, milk, tea T6 bread, tea T2 bread, cream, milk T7 beer, milk, tea T3 cake, milk T8 bread, te...转载 2018-08-12 17:39:53 · 5627 阅读 · 2 评论 -
神经网络
神经元神经元模型是一个包含输入,输出与计算功能的模型连接是神经元中最重要的东西。每一个连接上都有一个权重。一个神经网络的训练算法就是让权重的值调整到最佳,以使得整个网络的预测效果最好。 单层神经网络...原创 2018-08-14 19:27:48 · 271 阅读 · 0 评论 -
机器学习与统计建模 —— 差异和联系
相同点1、相同的目标:从数据中学习,核心都是探讨如何从数据中提取人们需要的信息或规律。2、相同含义的常见术语: 不同点1、不同的学派:机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。统计建模(Statistical modeling)则完全是数学的分支,以概率论为基础,采用...原创 2018-08-26 15:51:33 · 4648 阅读 · 0 评论 -
灰色关联分析(GRA)的理论及应用(matlab和python)
什么是灰色关联分析灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法,其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧密,它反映了曲线间的关联程度。通常可以运用此方法来分析各个因素对于结果的影响程度,也可以运用此方法解决随时间变化的综合评价类问题,其核心是按照一定规则确立随时间变化的母序列,把各个评估对象随时间的变化作为子序列,求各个子序列...原创 2018-08-26 21:48:11 · 109644 阅读 · 131 评论 -
熵权法
什么是熵权法熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。熵权法的基本思路是根据指标变异性的大小来确定客观权重。一般来说,若某个指标的信息熵指标权重确定方法之熵权法越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵指标权重确定方法之熵权法越大,表明指标值得变异程度越小,提供的信息量...转载 2018-08-27 09:02:17 · 56500 阅读 · 0 评论 -
协方差与相关系数
协方差二维随机变量(X,Y)(X,Y)(X,Y), XXX 与 YYY 之间的协方差定义为:Cov(X,Y)=E[X−E(X)][Y−E(Y)]Cov(X,Y)=E[X−E(X)][Y−E(Y)]Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}其中,E(X)E(X)E(X)为分量XXX的期望,E(Y)E(Y)E(Y)为分量YYY的期望协方差 Cov(X,Y)Cov(X,...原创 2018-09-01 20:48:08 · 919 阅读 · 0 评论 -
时间序列
时间序列的定义所谓时间序列就是按照时间的顺序记录的一列有序数据。对时间序列进行观察、研究、找寻他发展变化的规律,预测他将来的走势就是时间序列分析,时间序列分析方法只适用于近期与短期的预测。相关特征统计量:均值函数序列:反映的是时间序列每时每刻的平均水平方差函数序列:反映的是时间序列围绕其均值做随机波动时平均的波动程度协方差函数和相关系数度量的是两个不同的事件彼此之间的相互影响...原创 2018-09-02 00:33:43 · 10730 阅读 · 0 评论 -
机器学习 —— Stacking算法
之前一直对stacking一知半解,找到的资料也介绍的很模糊。。所以有多看了几篇文章,然后来此写篇博客,加深一下印象,顺便给各位朋友分享一下。stacking的过程有一张图非常经典,如下:虽然他很直观,但是没有语言描述确实很难搞懂。上半部分是用一个基础模型进行5折交叉验证,如:用XGBoost作为基础模型Model1,5折交叉验证就是先拿出四折作为training data,另外...转载 2018-02-18 22:13:08 · 3795 阅读 · 2 评论 -
机器学习 —— Bagging算法
Bagging算法特点:Boosting是一种框架算法,以随机森林(RDF)算法为代表。采用的是随机有放回的选择训练数据然后构造分类器,最后组合。从原始样本集中使用Bootstraping方法随机抽取n个训练样本,共进行k轮抽取,得到k个训练集。(k个训练集之间相互独立,元素可以有重复)对于k个训练集,我们训练k个模型(这k个模型可以根据具体问题而定,比如决策树,knn等)对...原创 2018-02-18 16:05:24 · 4740 阅读 · 2 评论 -
机器学习 —— Boosting算法
Boosting算法(提升法)算法的三个要素(1)函数模型:Boosting的函数模型是叠加型的,即F(x)=∑i=1kfi(x;θi)F(x)=∑i=1kfi(x;θi)F(x)=\sum_{i=1}^{k}f_i(x;\theta_i) (2)目标函数:选定某种损失函数作为优化目标E{F(x)}=E{∑i=1kfi(x;θi)}E{F(x)}=E{∑i=1kfi(x;θi)}E\...原创 2018-02-15 17:41:35 · 46306 阅读 · 3 评论 -
降维
引言:机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高阶张量转载 2018-01-30 14:42:18 · 594 阅读 · 0 评论 -
机器学习 —— 基本概念
过拟合:1、定义:训练好的分类器对训练样本很好的分类,但是对测试样本的分类结果很糟糕。 2、原因:特征维度过多,导致拟合的函数完美的经过训练集,但是对新数据的预测结果则较差。 3、解决方法:减少特征维度: 可以人工选择保留的特征,或者模型选择算法;正则化:保留所有的特征,通过降低参数θ的值,来影响模型欠拟合:1、定义:分类器学习能力太差,连在训练样本上都没有很好的分类 ...原创 2018-01-30 11:52:37 · 342 阅读 · 0 评论 -
性能度量和比较检验、模型评估方法
性能度量回归任务最常用的性能度量是“均方误差”错误率和精度错误率:分类错误的样本数占样本总数的比例 精度:分类正确的样本数占样本总数的比例预测类别 类别 说明 TP真正例 预测为1,实际为1的样本 TN真反例 预测为0,实际为0的样本 FP假正例 预测为1,实际为0的样本 FN假反例 预测为0,实际为1的样...转载 2018-01-30 14:32:17 · 1129 阅读 · 0 评论 -
Gradient Descent
梯度下降与梯度上升 在机器学习算法中,在最小化损失函数时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数,和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。 梯度下降法和梯度上升法是可以互相转化的。比如我们需要求解损失函数f(θ)的最小值,这时我们需要用梯度下降法来迭代求解。但是实际上,我们可以反过来求解损失函数 -f(θ)的最...转载 2018-02-14 14:04:08 · 303 阅读 · 0 评论 -
机器学习 —— L1正则化和L2正则化
正则化(Regularization)机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫...转载 2018-02-14 16:06:26 · 898 阅读 · 0 评论 -
机器学习 —— 联合概率分布
定义联合概率分布简称联合分布,对随机向量X={X1,X2…Xm}的概率分布,称为随机变量X1,X2…Xm 的联合概率分布。根据随机变量的不同,联合概率分布的表示形式也不同。对于离散型随机变量,联合概率分布可以以列表的形式表示,也可以以函数的形式表示;对于连续型随机变量,联合概率分布通过非负函数的积分表示。随机变量如果随机变量X的取值是有限的或者是可数无穷尽的值,则称X为离散随机变量...转载 2018-02-16 16:54:24 · 5032 阅读 · 0 评论 -
机器学习 —— 生成模型和判别模型
生成模型(Generative Model)作用:判别式模型估计条件概率分布P(y|x),判别数据的输出量。特性:寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。因此,生成模型更适用于无监督学习求解思路:联合分布 —> 求解类别先验概率和类别条件概率优点:能学习联合概率分布,能够通过联合概率分布和贝叶斯准则计算条件概率分布,能够通过联合概率分布计算边缘分布...原创 2018-02-17 00:08:26 · 493 阅读 · 0 评论 -
机器学习 —— 各类算法优缺点总结
在我们日常生活中所用到的推荐系统、智能图片美化应用和聊天机器人等应用中,各种各样的机器学习和数据处理算法正尽职尽责地发挥着自己的功效。本文筛选并简单介绍了一些最常见算法类别,还为每一个类别列出了一些实际的算法并简单介绍了它们的优缺点。https://static.coggle.it/diagram/WHeBqDIrJRk-kDDY目录正则化算法(Regularization Algorithms)...转载 2018-02-17 09:40:33 · 5407 阅读 · 0 评论 -
K_means聚类
概述K-means采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。核心思想通过迭代寻找k个类簇的一种划分方案,使得用这k个类簇的均值来代表相应各类样本时所得的总体误差最小。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。k-means算法的基础是...原创 2018-09-02 17:39:38 · 2336 阅读 · 0 评论