建模-Python/ SPSS/ Matlab/...
文章平均质量分 80
数据建模
黄饱饱_bao
我喜欢看过世界的男生
展开
-
决策树模型 - (ID3算法、C4.5算法) - Python代码实现
目录算法简介信息熵(Entropy)信息增益(Information gain) - ID3算法信息增益率(gain ratio) - C4.5算法源数据代码实现 - ID3算法代码实现 - C4.5算法画决策树代码-treePlotter算法简介决策数(Decision Tree)在机器学习中也是比较常见的一种算法,属于监督学习中的一种。其中ID3算法是以...原创 2018-08-22 14:33:17 · 15782 阅读 · 36 评论 -
逻辑回归 - sklearn (LR、LRCV、MLP、RLR)- Python代码实现
目录LR(LogisticRegression) - 线性回归LRCV(LogisticRegressionCV )- 逻辑回归MLP(MLPRegressor) - 人工神经网络RLR(RandomizedLogisticRegression)-随机逻辑回归logistic回归--因变量一般有1和0两种取值,将因变量的取值范围控制再0-1范围内,表示取值为1的概率。数据源...原创 2018-08-17 15:10:21 · 19492 阅读 · 1 评论 -
聚类分析 - K-means - Python代码实现
算法简介K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。算法过程如下:1)从N个文档随机选取K个文档作为中心点;2)对剩余的每个文档测量其到每个中心点的距离,并把它归到最近的质心的类;3)重新计算已经得到的各个类的中心点;4...原创 2018-07-30 17:54:23 · 38470 阅读 · 50 评论 -
线性回归 - 机器学习多元线性回归 - 一步一步详解 - Python代码实现
目录数据导入单变量线性回归绘制散点图相关系数R拆分训练集和测试集多变量线性回归数据检验(判断是否可以做线性回归)训练线性回归模型先甩几个典型的线性回归的模型,帮助大家捡起那些年被忘记的数学。● 单变量线性回归:h(x)=theta0 + theta1* x 1● 多变量线性回归:h(x)=theta0 + theta1* x 1 + theta2* x...原创 2018-07-19 15:24:56 · 63792 阅读 · 92 评论 -
因子分析模型
主成分分析和因子分析#包载入library(corrplot)library(psych)library(GPArotation)library(nFactors)library(gplots)library(RColorBrewer)1234567主成分分析主成分分析(PCA)...转载 2018-10-25 19:19:57 · 4824 阅读 · 0 评论 -
层次分析法AHP - 代码注释多 - ( 数据建模 Python代码)
实际生活中,往往有一些很复杂的系统,我们没办法直观草率的确定权重,比如甲、乙、丙三人竞选总统,严谨的说,需要从三人的社交能力、管理能力、经济能力等方面来考虑,在每个方面,三位候选人的得分也不同,那么到底怎么来判断这三个人的综合得分呢?AHP可以帮助你。(请忽略现在的选举都是投票这个现实)层次分析法是指将一个复杂的多目标决策问题作为一个系统,将目标分解为多个目标或准则,进而分解为多指标(或准则、...原创 2018-07-26 16:38:24 · 17351 阅读 · 10 评论 -
支持向量机 - 从原理到算法的实现
思想:寻找能够成功分开两类样本并且具有最大分类间隔的最优超平面。1.原理解析空间中任何一个平面的方程都可以表示为wx+b =0,如上图,设最优超平面方程H为wx+b=0,支持向量x-到H的距离为,要使分类间隔最大,即该距离最大,而该距离只与|w|有关,分子为一个常数,为了简单优美,设分子常数为-1...转载 2018-12-29 12:28:10 · 2479 阅读 · 0 评论 -
降维方法 -简直太全- 附Python代码(Random Forest、Factor Analysis、corr、PCA、ICA、IOSMA
为什么要降维?建模初期,我们往往只有几个指标,这个时候不太涉及到降维,但是一个月后你就发现,模型的指标越来越多,从原有的五六个指标一步一步变成 100 个指标。100 个很多吗?不多!但是以后呢?两个月过去可能会变成 500 个,三个月过去就会超过 1000 个,以后还会更多!我们一边惊讶着,一个模型竟然可以有这么多指标,一边也在抓耳挠腮,这么多指标里面,肯定有冗余,怎么找出他们?总不能一...原创 2018-07-01 22:28:39 · 36152 阅读 · 80 评论 -
词云图 - WorldCloud - Python代码实现
目录第一步:安装必要的包WorldCloud(安装好并且没有出错的可跳过这一步)第二步:准备文件,词云图的图片和文章,按照自己喜好准备吧第三步:Python实现-源码第一步:安装必要的包WorldCloud(安装好并且没有出错的可跳过这一步)pip install wordcloud 如果出现错误,那么看看是什么错误:提示pip“不是内部命令”,那就先安装pip吧;...原创 2018-07-18 17:47:46 · 4605 阅读 · 0 评论 -
模型评价 - 判断数据模型拟合效果的三种方法
数据建模的目的就是获得从自变量映射到因变量的函数,在建模的探索过程中,不同的方式总会得出不同的函数模型,而这些函数大多是由一些参数构成的,比如 y = f( x; w0, w1, w2, w3, ...)。 平方损失函数为了选择在某种方式下最好的参数值( w0, w1, w2, w3, ...的值),这个衡量方法一般是比较原始数据与模型的预测数据之间的平方差,平方差定义为:[(y(...原创 2018-09-17 12:33:23 · 31180 阅读 · 0 评论 -
动态规划 - Floyd算法求最短路径 - (Matlab建模)
Floyd算法又称为弗洛伊德算法、插点法,是一种利用动态规划的思想寻找给定的加权图中多源点之间最短路径的算法,与Dijkstra算法类似。该算法名称以创始人之一、1978年图灵奖获得者、斯坦福大学计算机科学系教授罗伯特·弗洛伊德命名。课题名称:设备更新,使总的支付费用最少工厂的某台机器可连续工作四年,决策者每年年初都要决定机器是否需要更新。若更新,就要支付购置费用;若...原创 2018-07-10 14:59:16 · 28756 阅读 · 3 评论 -
因子分析模型 - 因子分析法原理与代码实现 -(Python,R)
因子分析基本思想 和主成分分析相似,首先从原理上说,主成分分析是试图寻找原有自变量的一个线性组合,取出对线性关系影响较大的原始数据,作为主要成分。 因子分析,是假设所有的自变量可以通过若干个因子(中间量)被观察到。什么意思呢,举个例子,比如一个学生的考试成绩,语文80,数学95,英语79,物理97,化学94 ,那么我们认为这个学生理性思维较强,语言组织能力较弱。其中理性思维和语...原创 2018-11-20 16:42:13 · 30685 阅读 · 15 评论 -
神经网络 - 用单层感知器实现多个神经元的分类 - (Matlab建模)
训练样本矩阵:P = [0.1 0.7 0.8 0.8 1.0 0.3 0.0 –0.3 –0.5 –1.5; 1.2 1.8 1.6 0.6 0.8 0.5 0.2 0.8 –1.5 –1.3];训练样本对应的分类:T = [1 1 1 0 0 1 1 1 0 0 ;0 0 0 0 0 1 1 1 1 1...原创 2018-10-31 11:57:47 · 5982 阅读 · 2 评论 -
线性规划 - 用单纯形法解决LP问题 - (Matlab、Lingo建模)
线性规划研究时间较早,在实际应用中也比较成熟,它是一种辅助人们进行科学管理的数学方法,为合理地利用有限的人力、物力、财力等资源作出的最优决策,提供科学的依据。课题名称:配货问题,使运费收入最大 现有一艘轮船,分前中后三个舱位,相应的容积与最大允许载重量如表1所示。现有一批A,B,C三种货物待运,已知相关数据如表2所示。表1 各船舱的容积和最大载重量 ...原创 2018-07-10 14:10:15 · 12404 阅读 · 6 评论 -
非线性规划 - 用非线性规划解决问题 - (Lingo建模)
在经营管理中,为取得更高的利润,不仅需要提高经营收入,也要考虑如何在现有的人力、物力和财力条件下合理安排,在满足要求的前提下,达到最低的成本。对于静态的最优化问题(即所有数据不会瞬息万变,可以允许在小范围内有波动),通过设计各类可调用的指标,使目标达到最优。非线性规划具有坚实的数学基础和计算方法,在实际应用中有很高的价值。下面我们用一个例子来讲解非线性规划方法,可能有点像一道数学题,但是忽略这...原创 2018-07-05 14:44:52 · 28511 阅读 · 4 评论 -
神经网络 - BP神经网络与RBF神经网络模型解决实际问题 - (Matlab建模)
目录神经网络模型简述实例:交通运输能力预测设计MATLAB程序及仿真结果由于货物运输、地方经济及企业发展的紧密联系,因此作为反映货物运输需求的一项重要指标, 货运量预测研究和分析具有较强的实际意义。常用的货运量预测方法包括时间序列方法、移动平滑法、指数平滑和随机时间序列方法、相关(回归)分析法、灰色预测方法和作为多种方法综合的组合预测方法等.这些方法大都集中在对...原创 2018-07-10 17:43:11 · 42268 阅读 · 16 评论 -
线性规划 - 用单纯形法解决整数规划问题 - (Matlab、Lingo建模)
现实生活中,比如机器的台数,参与工作的人数,可调动的车辆数,这些数据都是整数。因此对于变量中包含整数、或者完全是整数的规划问题,我们称之为整数规划。在解决整数规划常用的算法便是单纯形法。课题名称:任务的分配设有甲、乙、丙、丁四个人,各有能力去完成A、B、C、D、E五项任务中的任一项,由于四个人的能力和经验不同,所需完成各项任务的时间如表1所示.由于任务数多于人数,要求考虑如下问题:...原创 2018-07-10 09:27:07 · 11535 阅读 · 7 评论 -
因子分析模型 - Python 做因子分析简直比 SPSS 还简单 - ( Python、SPSS)
为什么?SPSS 那么简单还免费,为什么还要用 Python 做因子分析(factor analysis)呢?工作狗表示,建模的目的是要卖钱的,也就是要嵌入到公司开发的产品上去,用 Python 写因子分析(factor analysis),总比找SPSS的接口更容易让大家接受。算法核心因子分析法(factor analysis)的核心是对若干综合指标进行因子分析并提取公共因子,再以每...原创 2018-11-29 17:35:35 · 46868 阅读 · 53 评论 -
线性回归 - 多元线性回归案例 - 分析步骤、输出结果详解、与Python的结果对比 -(SPSS建模)
现在用 Python 写线性回归的博客都快烂大街了,为什么还要用 SPSS 做线性回归呢?这就来说说 SPSS 存在的原因吧。SPSS 是一个很强大的软件,不用编程,不用调参,点巴两下就出结果了,而且出来的大多是你想要的。这样的特点特别适合建模初期进行算法的选择。比如SPSS 做因子分析,输出结果中有一项Kaiser-Meyer-Olkin Measure of Sampling Ade...原创 2019-02-01 11:58:48 · 54868 阅读 · 5 评论 -
非线性回归 - 案例按步骤详解 -(SPSS建模)
在上一篇时间序列的文章中,偶然发现另一份数据的整体趋势很符合非线性回归关系,那么就顺势写一篇非线性回归案例的文章吧。准备工作:SPSS - 中文版 SPSS 22.0 软件下载与安装教程 - 【附产品授权许可码,永久免费】数据解释:原数据中自变量为时间(1900~2018),因变量为金额。下面我们就来研究,金额随着时间增加而呈现的趋势变化。第一步:绘制图形,选择模型【图形】--【图...原创 2019-02-15 13:09:27 · 49509 阅读 · 5 评论 -
时间序列 - 案例按步骤详解 -(SPSS建模)
时间序列简单的说就是各时间点上形成的数值序列,通过观察历史数据的变化规律预测未来的值。在这里需要强调一点的是,时间序列分析并不是关于时间的回归,它主要是研究自身的变化规律的。准备工作:SPSS - 中文版 SPSS 22.0 软件下载与安装教程 - 【附产品授权许可码,永久免费】第一步:导入数据路径:【文件】--【打开】--【数据】--【更改文件类型,找到你的数据】--【打开】--【然...原创 2019-02-12 15:55:22 · 50570 阅读 · 16 评论 -
因子分析模型 - 案例按步骤详解 - (SPSS建模)
一、SPSS中的因子分析。具体操作步骤:(1)定义变量:x1-财政用于农业的支出的比重,x2-第二、三产业从业人数占全社会从业人数的比重,x3-非农村人口比重,x4-乡村从业人员占农村人口的比重,x5-农业总产值占农林牧总产值的比重,x6-农作物播种面积,x7—农村用电量。(2)导入数据:file-ope...原创 2018-10-29 09:52:04 · 28003 阅读 · 1 评论