机器学习
文章平均质量分 83
Halosec_Wei
该博主主攻python数据分析,数据挖掘,机器学习方向
展开
-
为什么要做自相关分析?精讲解析应用场景和具体操作
1、作用自相关(ACF)是指序列与其自身经过某些阶数滞后形成的序列之间存在某种程度的相关性,而偏自相关函数(PACF)是在其他序列给定情况下的两序列条件相关性的度量函数。一般来说(偏)自相关用于时间序列分析AR、MA的p、q进行定阶。2、输入输出描述输入:1个序列数据定量变量输出:pacf/acf图,用于AR、MA的p、q进行定阶3、学习网站SPSSPRO-免费专业的在线数据分析平台4、案例示例案例:基于5年每月商品的销售量,预测某商品的未来五个月的销售量。5、案例数据原创 2021-12-08 12:01:35 · 7279 阅读 · 0 评论 -
常用的统计建模方法——差分分析
1、作用差分,本质上就是下一个数值减去上一个数值,主要是消除一些波动使数据趋于平稳,非平稳序列可通过差分变换转化为平稳序列。2、输入输出描述输入:1个时间序列数据定量变量输出:经过指定阶数差分后的序列图3、学习网站SPSSPRO-免费专业的在线数据分析平台4、案例示例案例:基于某杂志1995-2019年的印刷量数据,对其分别进行一阶差分和二阶差分。5、案例数据差分分析案例数据6、案例操作Step1:新建分析;Step2:上传数据;Step3:选择对应数原创 2021-12-08 11:58:58 · 5099 阅读 · 0 评论 -
时间序列分析——如何正确使用单位根检验(ADF)?
1、作用在使用很多时间序列模型的时候,如 ARMA、ARIMA,都会要求时间序列是平稳的,所以一般在研究一段时间序列的时候,第一步都需要进行平稳性检验,除了用肉眼检测的方法,另外比较常用的严格的统计检验方法就是ADF检验,也叫做单位根检验。单位根检验是指检验序列中是否存在单位根,因为存在单位根就是非平稳时间序列了。2、输入输出描述输入:1个时间序列数据定量变量输出:序列数据在几阶差分时达到平稳3、学习网站SPSSPRO-免费专业的在线数据分析平台4、案例示例案例:基于某杂志199原创 2021-12-06 10:57:48 · 15348 阅读 · 0 评论 -
【回归分析】一文读懂岭回归,附案例教学
1、作用岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。2、输入输出描述输入:自变量X至少一项或以上的定量变量或二分类定类变量,因变量Y要求为定量变量(若为定类变量,请使用逻辑回归)。输出:模型检验优度的结果,自变量对因变量的线性关系等等。3、学习网站SPSSPRO-免费专业的在线数据分析平台4、案例示例案例原创 2021-12-06 10:54:43 · 11607 阅读 · 4 评论 -
MPai数据科学平台 随机森林分类\回归 参数调整讲解
决策树的个数(n_estimators):这是森林中树木的数量,即基评估器的数量。这个参数对随机森林模型的精确性影响是单调的,决策树的个数越大,模型的效果往往越好。但是相应的,任何模型都有决策边界决策树的个数达到一定的程度之后,随机森林的精确性往往不在上升或开始波动,并且,决策树的个数越大,需要的计算量和内存也越大,训练的时间也会越来越长。对于这个参数,我们是渴望在训练难度和模型效果之间取得平衡,决策树的个数通常不高于1000。取值:【1,+∞】分裂准则(criterion):回..原创 2021-04-25 23:37:45 · 2939 阅读 · 1 评论 -
MPai数据科学平台 SVM支持向量机分类\回归 参数调整讲解
C: 惩罚系数,用来控制损失函数的惩罚系数,类似于LR中的正则化系数。C越大,相当于惩罚松弛变量,希望松弛变量接近0,即对误分类的惩罚增大,趋向于对训练集全分对的情况,这样会出现训练集测试时准确率很高,但泛化能力弱,容易导致过拟合。 C值小,对误分类的惩罚减小,容错能力增强,泛化能力较强,但也可能欠拟合。取值:【0,1】核函数: 算法中采用的核函数类型,核函数是用来将非线性问题转化为线性问题的一种方法。RBF核:高斯核函数就是在属性空间中找到一些点,这些点可以是也可以不是样本点,把这些点当.原创 2021-04-15 00:34:39 · 2389 阅读 · 1 评论 -
1个月拿下7个offer! 5分钟掌握81个数学模型,小白也能逆袭数据分析师!
随着9月份的到来,疫情之下,21届的秋招也已经进入白热化阶段。“面试了25家,面试时对答如流,但连小公司都不要我,也不知道自己差在哪”“竞争对手都是985211,要不就是各种奖,我真的太菜了”“大学四年都没怎么学习,不知道自己能做啥”那么,在你还不知道自己喜欢什么工作的情况下,有没有什么技能是所有岗位通用,能帮你在求职中先人一步的吗?有,这个技能就是:数据分析。o 如果你还在校园,提前掌握数据分析能力,能让你在今后的求职中更有底气;o 如果你正在求职,学习数据分析,能大大提高自己的求职竞争力;原创 2020-08-17 14:57:49 · 1547 阅读 · 1 评论 -
数学建模上分利器,无编程基础小白5分钟内掌握81个数学建模模型!
随着数学建模国赛很快就要来了,很多人还没开始准备学习建模或者组不到强有力的建模、编程队友。然而,让很多朋友困惑的是,我是文科生或者我不会编程,能学会数据分析、数学建模么?数据分析、数学建模该怎么学?该学哪些课程呢?要不要掌握很多数学模型理论?要不要学习Python?R?一看代码就头大怎么办?数学基础很差怎么办?别怕,万灵数据旗下的MPai数据科学平台满足你的需求! 5分钟掌握主流61个统计类数学模型(几乎涵盖SPSS绝大部分功能),以及23个有监督机器学习(包括随机森林,SVM,XGBoost原创 2020-08-17 14:57:01 · 1990 阅读 · 0 评论 -
常用的LSTM时间序列预测(单变量时间序列预测 | 多变量时间序列预测 | 他们的预测未来数据方法)
单变量时间序列预测数据类型:单列import numpyimport matplotlib.pyplot as pltfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import LSTMfrom keras.models import Sequenti...原创 2019-10-04 21:30:42 · 9943 阅读 · 4 评论 -
机器学习-隐语义模型
一、前述隐语义模型是近年来推荐系统领域较为热门的话题,它主要是根据隐含特征将用户与物品联系起来。因为用户和物品之间有着隐含的联系。所以把用户转成隐语义,然后物品转成隐语义组合,通过中介隐含因子连接。二、具体1、隐语义模型举例和求解N代表用户,M代表物体第一步:先分解 将用户分解成F个因子的矩阵 将物品也分解成F个因子的矩阵 (F*N)T*(F*M )=N*M 其中T表示转置...原创 2019-09-21 14:08:07 · 429 阅读 · 0 评论 -
基于上下采样的adaboost模型对信用卡欺诈数据进行识别
总体思路: 首先对数据进行预处理,针对在数据集中欺诈案例所占比例甚小,使用下采样与过采样对数据集进行均衡处理 针对机器学习方法,基于单层决策树分类器的adaboost集成学习模型建立。将处理好的数据集中随机选取70%作为训练集,30%作为测试集,针对训练数据利用单层决策树算法建立了多个弱分类器,通过迭代算法进行自适应参数调整学习import pandas as pddata= pd.rea...原创 2019-07-02 23:34:44 · 1016 阅读 · 0 评论 -
Python机器学习 白话讲解 正则化惩罚L1与L2
其中为损失函数为正则化惩罚项假设存在两组隐藏层权重W1=【1,0,0,0】W2=【0.25,0.25,0.25,0.25】可以看出:W1W2虽然loss值结果是一样的,但是很明显,W1更容易出现过拟合(在训练集表现优秀,在测试集表现十分差)正则化惩罚项用于对权重参数进行惩罚对于L2正则化,正则化惩罚项(W1)=1^2+0^2+0^2+0^2=1正...原创 2019-06-26 01:07:09 · 1603 阅读 · 0 评论 -
Python机器学习 梯度下降法
大家可以参看这篇文章,我认为是全网讲得最好的https://www.jianshu.com/p/c7e642877b0e这里进行一下补充:梯度其实就是梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率,而在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向梯度上升就是梯度,梯度下降则是梯度的反方向寻找山谷的最低点,也就是我...原创 2019-02-01 00:14:26 · 284 阅读 · 0 评论 -
Python机器学习 逻辑回归
逻辑回归算法是一个基于线性回归的非线性化的二分类算法这里介绍一个非线性函数Sigmoid函数(有些神经网络也用它来进行参数非线性化)其中的Z为线性回归求导后的目标函数,因为最小二乘法可能求不出结果,但是梯度下降法是一定求得出结果的,区别在于速度我们可以看到Sigmoid函数图像为可以看到自变量取值为任意实数,值域[0,1]所以这里的解释是:我们将任意的输入映射到...原创 2019-02-01 00:37:29 · 235 阅读 · 0 评论 -
Python机器学习 决策树
树模型决策树:从根节点开始一步步走到叶子节点(决策)所有的数据最终都会落到叶子节点,既可以做分类也可以做回归树的组成根节点:第一个选择点非叶子节点与分支:中间过程叶子节点:最终的决策结果决策树的训练与测试训练阶段:从给定的训练集构造出来一棵树(从跟节点开始选择特征, 如何进行特征切分)测试阶段:根据构造出来的树模型从上到下去走一遍就好了一旦构造好了决策树,那么分类或...原创 2019-02-17 16:06:08 · 438 阅读 · 0 评论 -
Python机器学习 smote过采样算法
SMOTE全称是Synthetic Minority Oversampling Technique即合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General),SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本...原创 2019-02-12 18:19:52 · 6752 阅读 · 0 评论 -
Python机器学习 聚类算法K-MEANS DBSCAN
聚类概念:无监督问题:我们手里没有标签了难点:如何评估,如何调参聚类:相似的东西分到一组K-MEANS算法基本概念:要得到簇的个数,需要指定K值距离的度量:常用欧几里得距离和余弦相似度(先标准化)优化目标:工作流程: (1)从数据中随机选择k个对象(如三分类,K=3)作为初始聚类中心; (2)计算每个聚类对象(样本)到聚类中心(随机选择的点)的...原创 2019-03-07 14:02:23 · 618 阅读 · 0 评论 -
Python机器学习 贝叶斯模型
贝叶斯简介:贝叶斯(约1701-1761) Thomas Bayes,英国数学家贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章生不逢时,死后它的作品才被世人认可贝叶斯要解决的问题:正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把, 摸出黑球的概率是多大逆向概率:如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛 摸出一个(或好几个)球,观察这些取出来的球的...原创 2019-03-07 18:08:12 · 708 阅读 · 0 评论 -
NLP从零开始 NLP和深度学习概述
自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。我们可以看到,2012年2017年,在ACL、 EMNLP、EA、NAAC会议上呈现的NLP深度学习论文数量增长趋势NLP是什么?• NLP( Natural Language Processing ) 是 自然 语言 处理 的 简称,是研究人与 计...原创 2019-04-15 17:02:01 · 515 阅读 · 0 评论 -
Python机器学习 PCA降维(主成分分析)
用途:降维中最常用的一种手段目标:提取最有价值的信息(基于方差)主成分分析(PCA)问题:降维后的数据的意义?这里我们先明确几个概念:概念1:内积其解释为:我们可以看个例子:假设设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度,如下图概念2:向量的表示及基变换我们看到下面这个例子,向量可以表示为(3,2)实际上表示线性组合:...原创 2019-04-03 00:17:03 · 1173 阅读 · 0 评论 -
Python机器学习 线性回归(拟合)数学原理与最小二乘法
首先 说明一下什么是线性规划线性规划(Linear programming,简称LP)是运筹学中研究较早、发展较快、应用广泛、方法较成熟的一个重要分支,它是辅助人们进行科学管理的一种数学方法举个例子有这么一些数据:其目标:预测银行会贷款给用户多少钱?考虑:工资和年龄都会影响最终银行贷款的结果那么它们各自有多大的影响呢?我们可以画个图X1,X2就是我们的两个特征(...原创 2019-01-23 23:25:19 · 2605 阅读 · 0 评论