统计学
文章平均质量分 60
fitzgerald0
太阳出来的时候尽管我帮不上忙,此时唯一重要的是,日出时有你在场。
展开
-
k-shape时间序列聚类(tslearn)
时间序列聚类概述时间序列数据挖掘从技术角度来讲,一般有四种时间序列预测,时间序列分类,时间序列聚类,时间序列异常检测基本上包含了机器学习的几大领域由于时序数据的特殊性,所以每一个方面都与截面数据挖掘有所区别。本文主要讲讲时序聚类中的k-shape算法,和以往的风格一样,重在算法实现。时间序列数据的聚类,关键在于如何定义相似度。比如基于时间序列特征(len,max,min,std,lag)等可以使用 KMeans算法进行聚类。除了使用欧式距离以外,还可以使用dtw等方法,以及动态规划原理,对时间序列.原创 2020-08-23 21:15:27 · 28241 阅读 · 53 评论 -
(时间序列)回归模型融合策略
机器学习回归预测中,存在多个模型预测结果,我们可以选择最优的模型结果 ,也可以组合多个不同模型结果,研究表明,在许多情况下,只需对不同预测方法的预测结果进行平均就可以显著提高预测精度。同时达到最优模型的效果。原创 2022-02-21 22:42:51 · 4434 阅读 · 0 评论 -
时序距离度量方式DTW(python)
时序距离度量方式Dynamic Time Warping (DTW) Python代码原创 2021-04-28 14:41:55 · 2635 阅读 · 0 评论 -
时间序列可预测性度量
时间序列可预测性度量,讲解从序列长度到平稳性,排序熵等指标原创 2020-10-10 14:04:31 · 5973 阅读 · 0 评论 -
基于tsfresh特征扩展和lasso时序建模
本文介绍使用tsfresh库进行时序 Freature Extract,结合Lasso进行建模。一、背景众所周知,lasso是机器学习鼻祖之一Robert Tibshirani之作,以L1正则作为特征筛选的回归模型,在多元回归和高维数据建模中具有广泛的应用,但在时序模型中使用的较少,可以查到的几篇文章中文期刊中,主要使用在ARIMA模型中p的定阶,以及多元时间序列的特征筛选。而tsfresh...原创 2019-05-27 21:52:19 · 2116 阅读 · 0 评论 -
多元模型的交互作用与共线性
实际上,共线性的存在是可以看作是无限接近于违背多元模型中自变量线性可加这个假设,也就是说,违背了自变量之间独立性。建立多元线性模型,就给定了自变量,X=x1+x2+x3+....xnX=x1+x2+x3+....xnX=x_{1}+x_{2}+x_{3}+....x_{n},这样的线性关系。 如果两个变量存在高度相关,比如相关系数大于0.9,那么,就是自变量xi≈λxjxi≈λxjx_{i}\...原创 2018-03-12 20:03:53 · 11146 阅读 · 1 评论 -
多元回归中的最大似然和最小二乘估计
\qquad 多元回归中的最大似然和最小二乘估计最大似然估计 \quad 最大似然估计:对于因变量YYY,最大似然估计就是去找到YYY的参数估计值θθ\theta ,使其发生概率最大,利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。 \quad 函数YYY中的自变量是相互独立,变量发生的概率联合分布可以写作当个边际分布的乘积,我们通常最大化的似然函数: Λ(θ...原创 2018-03-09 12:12:18 · 10261 阅读 · 3 评论 -
多元线性模型中共线性产生的原因解析
在很多书籍中谈到了共线性问题,作为多元统计中基本假设之一,却经常被违背,影响模型稳定性和统计power。在不少的论文中谈到了,国内的很多书籍往往一笔带过。因为,属于统计计算领域内容,非专业人士,也鲜有能明白其中内涵,现依据手上的一些资料和自己的理解,写就一些。一.共线性概念共线性问题(collinearity),是指两个或者更多的自变量高度相关,当只有两个高度相...原创 2019-12-02 20:05:28 · 20529 阅读 · 3 评论 -
Mplus中出现‘NO CONVERGENCE. NUMBER OF ITERATIONS EXCEEDED’
用Mplus分析数据的时候,在输出的output中出现‘NO CONVERGENCE. NUMBER OF ITERATIONS EXCEEDED.‘的警告 今天刚好翻到凸优化中讲解‘范数逼近中野值或大误差的灵敏性’这个知识点,略微扩展实践一下。 一、关于野值 野值,就是平时在统计中说的离群点或者异常值。注:图中的id为4个的这个点明显的偏离其他样本原创 2018-01-22 00:26:13 · 25974 阅读 · 3 评论 -
python实现总体最小二乘(TLS)
用python实现总体最小二乘导入库,读取数据(数据网址为点击打开链接)import numpy as npimport matplotlib.pyplot as pltimport pandas as pddata=pd.read_table("/Users/cofreewy.txt")x1=data['Traffic']y1=data['CO']数据归一化f原创 2018-01-25 22:43:41 · 3816 阅读 · 2 评论 -
验证性因素分析AVE和CR值
AVE (Average Variance Extracted)“平均方差提取值” 衡量收敛效度CR(Construct Reliability, CR)建构信度,反映了每个潜变量中所有题目是否一致性地解释该潜变量,当该值高于0.70时表示该潜变量具有较好的建构信度。验证性因素分析AVE和CR值,可以通过AMOS或者Mplus输出的因子负荷和误差变异,手工求解,也可以用R公式如下:...原创 2018-01-08 10:06:41 · 92870 阅读 · 3 评论 -
CNN 训练集和测试集loss值配对T检验
对输出的两组loss值进行配对样本T检验1.两组值如图所示:(A-训练集loss , B-测试集loss)2 . 二组值的相关:可以看出是中度的显著负相关3 . 二组的配对T检验:结果表明在二者在0.01置信水平呈显著差异4 . 绘图:随着训练epoch的增加,训练集的loss逐渐降低,而测试集loss增加原创 2018-01-07 17:16:53 · 2790 阅读 · 0 评论 -
线性模型出现非正定矩阵的问题解释
常常在Mplus中求解线性结构方程的时候出现 如下警告: WARNING: THE LATENT VARIABLE COVARIANCE MATRIX (PSI) IS NOT POSITIVE1 背景: 大约不少人找了很多书籍,要么一笔带过,要么只给出结论,让人终觉疑虑满满。是线性代数的知识,但是你去翻书,人也未必告诉你,那么这类问题在那里呢,这个问题属于数值分原创 2017-09-26 10:32:31 · 18171 阅读 · 1 评论 -
矩阵存在共线性的第二谈
前面一篇文章中我们谈了非正定的问题。那么,针对Mplus中的这个警告做一点解释THE MODEL ESTIMATION TERMINATED NORMALLY THE STANDARD ERRORS OF THE MODEL PARAMETER ESTIMATES MAY NOT BE TRUSTWORTHY FOR SOME PARAMETERS DUE TO原创 2017-09-29 22:05:46 · 4557 阅读 · 1 评论 -
概率导论中几个最常见的分布函数公式整理
最近几日又把概率导论拿出来瞅瞅,重要的公式自己去推导,这些需要重点记的,仍然需要记下来。1累积分布函数2伯努利随机变量3 二项随机变量4 几何随机变量5 柏松随机变量6正态分布概率累积函数7 期望8 方差参考书籍:1 概率导论 (是一本非常棒的学习概率论的书籍,给别人安利过。原创 2017-09-30 23:29:51 · 31197 阅读 · 0 评论 -
python中出现非正定“Input X must be non-negative”的问题
晚上在用贝叶斯分析器处理数据时,冒出“Input X must be non-negative”这样的提示,意思是训练集的特征向量组成的矩阵必须是非负矩阵,这几天也刚好在看数值分析的内容,也探索到了在python上有数值分析的内容,主要是Numpy和SymPy。那么,就记下这个问题数据和模块导入代码如下:import pandas as pdimport numpy as np原创 2017-10-17 21:42:59 · 16660 阅读 · 1 评论 -
R中的Box-Cox变换
在许多情况下,为了满足经典线性模型的正态性假设,常常需要使用指数变换或者对数转化,使其转换后的数据接近正态,比如数据是非单峰分布的,或者各种混合分布,,虽然不一定起作用,但是不妨试试。我们使用平日最常见的box-cox转换,因为之前看到有人问到如何使用,spss进行转换,到网上找了资料,是需要语法的,在spss中进行语法指令,显然相比较用R,还是很不方便的。D=read.csv("/Use原创 2017-07-16 21:21:59 · 35255 阅读 · 5 评论 -
传统统计学和机器学习的不同点
传统统计学和机器学习的不同点一道笔试题,当初解答的不满意,昨日看到吴喜之老师的《复杂数据统计方法》故摘录如下1 机器学习的方法代表了统计的最新发展2 传统的统计模型大多对数据有一定的要求或者假设,模型本身有比较明确的数学形式关于模型的优劣,大多数依据对数据的分布假定得到的检验来判断。但是在在大多数情况下,人们无法对真实世界数据的分布做任何假设。3 同时也很难想象复杂的现实世界能...原创 2017-09-30 12:04:41 · 6297 阅读 · 0 评论 -
使用python进行ridge回归
上文我们诊断出,三个自变量之间存在共线性,那么,我们使用先使用岭回归。#岭回归,是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,#通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,#对病态数据的拟合要强于最小二乘法。原创 2017-07-16 20:33:32 · 9919 阅读 · 0 评论