统计学习方法
文章平均质量分 50
try_trying_try
努力努力x努力
展开
-
sigmoid, softmax
softmax 当类别数是2时,它退化为二项分布,而它和sigmoid真正的区别就在这儿——二项分布包含两个分类类别(姑且分别称为A和B);sigmoid 而两点分布其实是针对一个类别的概率分布,其对应的那个类别的分布,直接由1-P粗暴得出。每一项的区间范围的(0,1)所有项相加的和为1.原创 2024-06-03 15:28:16 · 301 阅读 · 0 评论 -
贝叶斯网络
贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型,于1985年由Judea Pearl首先提出。Def: 其主要用来描述随机变量之间的条件依赖。Bayesian应用之一:拼写检查。原创 2024-06-03 09:40:12 · 190 阅读 · 0 评论 -
正态性检验
都有一个共同的前提条件:样本数据必须服从正态分布,即样本数据必须来源于一个正态分布的总体,若样本数据不服从正态分布,就不能用以上参数检验对数据进行分析,而应该使用非参数检验(如卡方检验、置换检验等)参数检验:t检验、方差分析(ANOVA)非参数检验:正态检验。原创 2024-04-25 17:58:12 · 1200 阅读 · 0 评论 -
统计指标:rms mse等
标准差/均方差 /std : (观测值均值-): (观测值-模型值)均方根误差/RMSE。原创 2024-04-23 17:24:37 · 184 阅读 · 0 评论 -
时间序列-AR MA ARIMA
即其均值和方差在时间上保持不变。如果时间序列数据不满足平稳性假设,需要进行平稳性转换或考虑其他时间序列模型,如自回归移动平均模型(ARMA)或自回归积分移动平均模型(ARIMA)。模型的阶数 p pp 决定了需要考虑多少个过去时间点的观测值。MA(q)适用于一些在趋势和季节性变化。注意:AR模型假设时间序列是。ARMA模型的应用对象应该为。求AR模型的阶数 p和参数。,常常会使用统计方法如。或者其他模型选择技术。等方法来估计MA模型的。原创 2024-03-06 11:10:33 · 1066 阅读 · 0 评论 -
统计为什么系列:问-答
矩阵间的距离度量 -原创 2024-02-02 10:52:00 · 379 阅读 · 0 评论 -
ICA:独立成分分析
如果独立成分中有两个以上的高斯成分,用标准的独立成分分析来处理这样的数据是不可能的。另一个假设是信号的非高斯性,现实世界的许多信号,诸如绝大多数的语音信号和图像信号即是服从非高斯分布的这个假设的可应用性,带来了独立成分分析的重要特征,即。ICA中:去除各观测信号之间的相关性,从而简化了后续独立分量的提取过程,而且,通常情况下,比不对数据进行白化处理相比,算法的收敛性较好。),从而求得位置参数,计算机更适合迭代,在计算量较小时,直接求导得到解析解速度占优,而在深度学习中全部是以矩阵的方式进行求导,且。原创 2024-01-30 18:03:17 · 1161 阅读 · 0 评论 -
统计学books
1.原创 2024-01-29 17:57:41 · 378 阅读 · 0 评论 -
数据预处理 matlab & 数据质量评估
配对样本:指的是来自同一个个体或单位的两组数据,如同一个人在两个不同时间点的血压值,或者同一个医院的两个不同科室的病人的体重值。在配对样本中,每个数据都有一个对应的数据,可以用对应数据的差异进行比较。独立样本:指的是来自不同个体或单位的两组数据,如男性和女性的身高,或者两个不同的医院的病人的收入水平。在独立样本中,每个数据都是独立的,没有与之对应的数据,通常需要用两组数据的均值或差异进行比较。独立样本是指我们得到的样本是相互独立的。配对样本就是一个样本中的数据与另一个样本中的数据相对应的两个样本。原创 2024-01-19 14:48:40 · 539 阅读 · 0 评论 -
假设检验 小结
定义:第一类错误,第二类错误,检验功效。原创 2024-01-10 11:43:46 · 364 阅读 · 0 评论 -
异常值检验(t分布查表)、方差分析
p值均0.05,说明在显著性水平0.05下均接受原假设,即服从正态分布。方差齐性,也即方差分析是针对方 差一致的情况下,检验样本均值是否一致。结论:p值均大于0.05,任意两组之间不存在显著差异。、多元方差分析(即,MANOVOA)。,用于检验两组或更多组样本的。原创 2023-06-03 20:42:49 · 1623 阅读 · 0 评论 -
统计:SEM standar deviation of the mean [延长仪表周期 技术点]
随着你的样本量变大,SEM会变小。因为大样本量的平均值可能比小样本量的平均值更接近真实的总体平均值。在一个巨大样本的情况下,即使数据非常分散,你也能非常精确地知道平均值是多少。即,SEM是衡量样本平均值和整体平均值差异的指标。其考虑了SD的值和样本量;根据定义,SEM始终小于SD;1.SD量化了样本分散值之间的差值有多大;2.SEM量化了对总体实际。原创 2023-05-25 09:42:09 · 684 阅读 · 0 评论 -
统计学习方法:序贯概率比检验SPRT
这些限制显然必须比验收标准更严格,并应根据过去的仪器性能、工程判断和MSET/SPRT的经验来确定。在允许传感器在下一次换料大修期间漂移太多而未被校准..应用- reliability engineering/reliability demonstration test design.区别(vs固定样本检验):在固定样本检验中,一定数量的观察结果被用来从两个或多个备选方案中选择一个假设。SPRT模块对一个残余信号进行均值和方差测试。,并在某一时刻做出决定并选择一个假设。嵌入式诊断系统,对数据进行实时分析。原创 2023-05-17 14:41:56 · 5667 阅读 · 0 评论 -
时间序列-相关性-ACF PACF CCF
①当时间间隔为0的时候,相关系数为1,很显然,每个点和自己都是完全相关的。当时间间隔大于1,相关系数便只是在0附近波动,说明不同时间点的单日收益相关性不大。当序列为高阶时,存在滞后相关性,于是可以使用更适用的ADF检验。不过大致上,我们可以认为沪深300的单日收益和其它交易日关联度不大。描述了一个观测值和另一个观测值之间的自相关,包括直接和间接的相关性信息。图中有个别间隔的序列相关系数超过置信区间,说明子序列还。时间轴上的曲线图,是给定时间段以及每个时间点的随机变量得到。If波动,波动幅度也是固定的。原创 2023-05-17 11:34:12 · 3373 阅读 · 0 评论 -
卡方分布,t分布和F分布
三大抽样分布 与正态分布关系原创 2023-04-21 17:14:13 · 181 阅读 · 0 评论 -
QR分解 正交矩阵
无原创 2023-01-18 16:57:50 · 181 阅读 · 0 评论 -
相关系数(Pearson)
无原创 2023-01-11 14:20:33 · 674 阅读 · 0 评论 -
图神经网络GNN
无原创 2022-11-11 10:38:47 · 1090 阅读 · 0 评论 -
近似熵 样本熵 模糊熵 & 熵 信息熵
无原创 2022-11-08 13:35:56 · 1545 阅读 · 0 评论 -
灰色预测模型、新灰色预测模型、新陈代谢灰色预测模型
无原创 2022-08-31 14:25:41 · 877 阅读 · 0 评论 -
[SPRI] Sequential Probability Ratio Test检验
无原创 2022-08-25 15:37:51 · 248 阅读 · 0 评论 -
寿命分布 4种[Weibull, 指数, 正态,对数正态,laplace]
无原创 2022-06-22 17:43:43 · 7746 阅读 · 0 评论 -
移动平均法 VS 指数平滑法
指数平滑法 整洁版ES 全期平均法、移动平均法、指数平滑法 多算例移动平均法(Moving average,MA)基本思想是:根据时间序列资料、逐项推移,依次计算包含一定项数的序时平均值,以反映长期趋势的方法。用一组最近的实际数据值来预测未来一期或几期内公司产品的需求量无趋势无季节性特点,能有效地消除预测中的随机波动1.简单移动平均法2.加权移动平均法优点:能平滑掉需求的突然波动对预测结果的影响缺点:不能总是很好地反映出趋势。由于是平均值,预测值总是停留在过去的水平上而无法预计会导致将原创 2022-05-13 21:21:35 · 5331 阅读 · 0 评论 -
Copula函数初了解
其核心概念是以Copula函数将多个随机变量的边缘分布耦合起来。Copula 函数的基本思想就是,通过把边缘变量转化为均匀分布变量而不再需要考察很多不同的边缘分布以简化问题,然后再把相关性定义为一个在均匀分布之上的联合分布。Copula函数很好...原创 2022-04-21 15:30:24 · 1149 阅读 · 1 评论 -
箱线图 violin图
一、箱线图多组数据的比较:箱线图单组数据的比较:直方图 \quad可视化更直观箱线图Box plot(箱须图、盒图):箱须图(Box-whisker Plot)反映一组或多组连续型定量数据分布的中心位置\color{blue}{中心位置}中心位置和散布范围\color{blue}{散布范围}散布范围。上四分位数(Q3)和下四分位数(Q1),箱体包含了50%的数据。上下边缘:该组数据的最大值和最小值箱子的高度在一定程度上反映了数据的波动程度。箱子的宽度在一定程度上反映了数据的波动程度原创 2022-01-21 23:54:39 · 2801 阅读 · 0 评论 -
对数正态分布
Wikipedia Log-normal distribution标准正态分布函数数值表 查询------------------------------------------------------图像如下Mathworksr = lognrnd(mu,sigma,sz1,…,szN) %matlab生成随机数原创 2022-01-06 00:23:45 · 549 阅读 · 0 评论 -
教材寻找 下载系列1
起因:学校图书馆下载到的是:先下了[超星阅读器],然后下载图书,为PDZ文件。所以need PDZ转PDF文件?总指导:超星pdz文件怎么转换成pdf文件D:…\xpsview-v1.0-2012-10-03\xpsview\bin\Release\AnyCPU点击下面的,即可跳出来choose a file.PDZ文件来源 图书馆下载处===============PS:提供小文件的 在线 PDZ转PDF 在线转换xps viewer下载:https://sourceforge.原创 2021-11-30 11:17:55 · 168 阅读 · 0 评论 -
统计学习方法:区别之KNN ~ K-means
KNN–分类(k-nearest neighbors)模板匹配,将样本分到离它最相似的样本所属的类—————————————————————————K-means–聚类拓展:参考资料:KNN和K-means原创 2020-08-01 13:20:23 · 168 阅读 · 0 评论 -
统计学习方法:K-means(hierarchy cluster)
K-means(hierarchy cluster)先用hierarchy cluster找寻 初始k个簇中心重点:熟练alg大纲点,details可省import numpy as npimport collectionsdef calDist(x1,x2): # compute两个样本point之间的距离(欧式距离) return np.sum(np.square(x1-x2))def cal_Cluster_distance(D,cluster1,cluster2): #co原创 2020-08-01 10:18:03 · 2537 阅读 · 0 评论 -
统计学习方法:KNN
KNN: 分类也可用于回归参考资料:KNN"""@File : KNN.py@Time : 2020-7-30"""import pandas as pdimport numpy as npimport timefrom collections import Counterdef loadData(fileName): #从文件中读取数据 data=pd.read_csv(fileName,header=None) data=data.value原创 2020-07-31 15:23:26 · 133 阅读 · 0 评论