wiki
千行百行
这个作者很懒,什么都没留下…
展开
-
条件互信息(conditional mutual information,CMI)
文章目录定义see also定义条件互信息I(X,Y∣Z)I(X, Y|Z)I(X,Y∣Z)定义如下:I(X,Y∣Z)=∑z∈ZpZ(z)∑y∈Y∑x∈XpX,Y∣Z(x,y∣z)logpX,Y∣Z(x,y∣z)pX∣Z(x∣z)pY∣Z(y∣z)I(X, Y|Z)=\sum_{z\in Z}p_Z(z)\sum_{y \in Y}\sum_{x \in X} p_{X,Y|Z}(x,y|z)\log \frac{p_{X,Y|Z}(x,y|z)}{p_{X|Z}(x|z)p_{Y|Z}(y|z)}原创 2021-12-17 21:57:11 · 4366 阅读 · 3 评论 -
信息论 集智百科
百科词条:信息论原创 2021-10-27 21:00:56 · 70 阅读 · 0 评论 -
事实类知识和认知类知识
知识是人类从各个途径中获得的经过提升总结与凝练的对世界的系统认识。世界经合组织(OECD)在《以知识为基础的经济》(1996)报告中将知识分为4大类:(a)知道是什么(Know-what),主要是叙述事实方面的知识;(b)知道为什么(Know-why),主要是自然原理和规律方面的知识;(c)知道怎么做(Know-how),主要是指对某些事物的技能和能力;(d)知道是何人(Know-who),涉及谁知道和谁知道如何做某些事的知识。按照知识描述的内容是否是客观存在的实体对象,可以将知识归为两类:事实类知识和原创 2021-08-26 00:34:07 · 537 阅读 · 0 评论 -
一个例子搞清楚哈尔变换/Haar变换/Haar Transform的距离不变性
文章目录例子解释说明例子>>> import pywt # 使用pywavelets>>> pywt.wavedec([1, 1, 2, 2], 'haar')[array([3.]), array([-1.]), array([0., 0.])]>>> pywt.wavedec([1, 1, 5, 5], 'haar')[array([6.]), array([-4.]), array([0., 0.])]>>> fr原创 2021-08-13 23:29:09 · 453 阅读 · 0 评论 -
Mallat算法、Mallat分解算法的适用场合
缘起今天看文章发现提到了Mallat算法,但是文章里边写的很隐晦,绝笔不提Mallat算法的适用场合,也没说清楚怎么使用。就很好奇,百度查了查,发现资料很不靠谱。无果之后,换了知网查了一下,检索结果如下:如图所示,我按照相关度排序选择了被引最高的一篇文献进行学习,值得注意的是该文献发表在EI期刊,说明质量还是可以的。适用场合注意看红框中的文字!可以发现Mallat算法使用前提是有高频数据!高频数据!高频数据!如果满足了适用条件,还要注意选择分解层数,文章中给了经验公式。经验教训查专业知识原创 2021-08-09 23:04:26 · 2466 阅读 · 0 评论 -
皮尔森相关系数、皮尔逊相关系数(Pearson correlation coefficient)的存在性问题
文章目录Wikipedia翻译WikipediaExistenceThe population Pearson correlation coefficient is defined in terms of moments, and therefore exists for any bivariate probability distribution for which the population covariance is defined and the marginal population v原创 2021-07-29 22:30:45 · 1356 阅读 · 0 评论 -
【1分钟搞清楚】时间序列之什么是shapelet
Ye和Keogh在2009年提出了一种叫shapelet的概念,shapelet是时间序列中能最大程度反映类别信息的连续子序列, 它可以很好地解释分类结果,即某个时间序列为什么属于某个类,如图所示为两条属于不同类别的时间序列曲线,黑色箭头所指处为一个可能的shapelet,因为他可以将两条时间序列显著区分开来。与一般的分类方法相比,基于shapelet的分类方法更加准确,解释性也更强。[1]赵超. 融合选择性提取与子类聚类的快速时间序列shapelet发现算法[D].山东大学,2019.形象地说s.原创 2021-07-23 19:10:33 · 3839 阅读 · 0 评论 -
秒懂什么是电池梯次利用
一句话讲明白什么是“电池梯次利用”:“玩具车用完后,遥控器还能接着用”。这就是一种电池的梯次利用形式。1环球科学:世界上最大的电池,是用水做的 ↩︎原创 2021-06-26 22:07:43 · 1399 阅读 · 0 评论 -
python正态性检验:检验数据是否服从正态分布
可以使用夏皮罗一威尔克检验法(Shapiro-Wilk test),直接使用scipy里边现成的轮子即可。代码如下:>>> from scipy import stats>>> np.random.seed(12345678)>>> x = stats.norm.rvs(loc=5, scale=3, size=100)>>> shapiro_test = stats.shapiro(x)>>> shapir原创 2021-06-19 23:03:22 · 4923 阅读 · 0 评论 -
异常检测中的三种异常:点异常、上下文异常、集合异常
文章目录直观解释点异常上下文异常集合异常Reference直观解释异常检测问题遇到的异常可以分为三类,分别是点异常(Point Anomalies)、上下文异常(Contextual Anomalies)和集合异常(Collective Anomalies)。一图胜千言,下面分别用一张图说明这些异常。点异常示意图如下,其中o1o_1o1、o2o_2o2属于点异常上下文异常示意图如下,其中t2t_2t2处属于上下文异常集合异常示意图如下,箭头所指的红框区域属于集合异常Refer原创 2021-04-09 21:44:39 · 5519 阅读 · 0 评论 -
异常检测
Anomaly detection is performed at the root node by finding clusters that are further away from other clusters by more than one standard deviation above the average cluster distance.那些远离其他簇的簇可以认为是异常簇。see alsoScienceDirect scientific topic: anomaly detect原创 2021-04-06 14:29:34 · 280 阅读 · 0 评论 -
非参数方法、非参数模型
文章目录直观认识Reference直观认识看看PRML第二章的目录,相信聪明的你就会理解什么是非参数方法。目录截图如下:总有一些复杂的分布既不是Beta分布,也不是Dirichlet分布,也不是高斯分布,也不属于指数分布族。那怎么研究这些复杂的分布呢?答案是使用非参数方法。非参数方法对应的模型叫做非参数模型。ReferencePattern Recognition and Machine Learning(PRML)第二章:原书PDF下载地址(https://www.microsoft.com/原创 2021-04-05 14:34:00 · 548 阅读 · 0 评论 -
python SciPy 相关系数 相关性
相关系数https://docs.scipy.org/doc/scipy/reference/stats.html#correlation-functions原创 2021-03-26 23:20:19 · 1446 阅读 · 0 评论 -
核技巧、核函数、希尔伯特空间
核技巧的出发点是:只定义核函数K(x,z)K(x,z)K(x,z),而不直接去寻找映射函数ϕ\phiϕ1。李航:《统计学习方法》,第一版,117页 ↩︎原创 2021-03-23 23:13:37 · 224 阅读 · 0 评论 -
核密度估计
郭老师统计小课堂:从直方图到NW核估计 这篇文章讲的很清楚。知乎:什么是核密度估计?如何感性认识?讲的也还行原创 2021-03-13 21:13:45 · 718 阅读 · 0 评论 -
周志华西瓜书-《机器学习》-Jaccard系数的解释说明
西瓜书198页式9.5中的Jaccard系数和Wikipedia中Jaccard index的定义完全不同,搞得人一头雾水。阅读了ruoqi23的博文恍然大悟。在此撰文感谢!原创 2021-02-24 22:53:51 · 698 阅读 · 0 评论 -
Hotelling‘s T^2统计量(霍特林统计量)
Hotelling’s T^2统计量待续原创 2021-01-14 22:25:14 · 7897 阅读 · 0 评论 -
秒懂什么是电力现货市场中的不平衡资金
假设电力现货市场试运行中累计用电300亿千瓦时,市场化电价平均0.2元/千瓦时,市场化用户需向电网企业缴纳电费60亿元。但当电网与发电企业结算电费时,假设其中200亿千瓦时为市场化机组提供,按市场价格0.2元/千瓦时结算为40亿元;剩余100亿千瓦时由外来电、新能源等非市场化机组提供,按平均0.3元/千瓦时“保价”结算,共计30亿元。两部分相加,电网企业需向发电侧结算共计70亿元,但用户缴纳实际电费60亿元,差额10亿元,这个差额就是电力现货市场中出现的“不平衡资金”。1中国能源报:电力现货还能走多原创 2021-01-03 10:01:56 · 2418 阅读 · 0 评论 -
两种曲线下面积AUC(Area Under the ROC Curve):ROC-AUC、PR-AUC(性能度量)
研究人员指出,在所确定的指标报告中存在不合规使用行为,主要是过度简化指标名称。例如将“曲线下面积”过度简化为“ AUC”。 曲线下面积是对准确率的一种度量,可以根据是精度和召回率(recall)的AUC(PR-AUC),还是召回率和假阳性率的AUC(ROC-AUC)以不同的方式进行解释。1这两种AUC需要区分一下。但是根据周志华老师的《机器学习》一书33页“2.3.3 ROC与AUC”这一节可知,AUC一般指的是ROC-AUC。AI数据派公众号文章:近20年3867篇AI论文大调研:有缺陷的.原创 2020-08-15 17:26:12 · 2978 阅读 · 0 评论 -
缩尾处理(winsorize)-数据分析、数据处理
话不多说,直接搬运scipy.stats.mstats.winsorize一个例子说的清清楚楚,而且还把轮子也搬出来了。python调个包就能用了原创 2020-07-10 22:21:47 · 79253 阅读 · 2 评论 -
变分自编码器VAE(Variational Auto Encoding)
一些网文苏剑林:变分自编码器(一):原来是这么一回事苏剑林:变分自编码器(二):从贝叶斯观点出发【VAE学习笔记】全面通透地理解VAE(Variational Auto Encoder)VAE全面理解(上)VAE全面理解(下)Variational autoencoders理解变分自动编码器...原创 2019-09-06 17:37:45 · 388 阅读 · 0 评论 -
正态分布
正态分布与最小二乘的关系,参见经典网文:正态分布的前世今生(上)从网文中摘录部分经典如下:历史上一流的数学家都是伟大的猜想家。高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。高斯把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就是:误差分布导出的极大似然估计 ...原创 2019-10-15 20:20:14 · 447 阅读 · 0 评论 -
独立成分分析Independent component analysis (ICA)
描述了ICA的假设,记录了一下前人的轮子原创 2019-10-13 14:35:35 · 422 阅读 · 0 评论 -
误报率、漏报率、准确率和召回率(虚警率、漏警率)
这几个概念太绕了,根据关注点的不同使用的频率也不相同。对于我的日常而言,关注的是是否正常,所以一般用误报率和漏报率。误报指的是本来正常,但是误认为是异常。对应于FN漏报指的是本来异常,但是误认为是正常。对应于FP误报率+召回率=1漏报率+准确率=1...原创 2019-09-06 14:07:08 · 33646 阅读 · 3 评论 -
线性回归的原假设和p值
原假设y=β0+β1xy=\beta_0+\beta_1 xy=β0+β1x,原假设 β1\beta_1β1 是零,当计算出与 β1\beta_1β1 相关的统计量的 ppp 值小于显著性水平 α\alphaα(α\alphaα 一般取0.05或0.01)时,就拒绝原假设,即认为 β1\beta_1β1 不是零。ppp 值计算在Python中from statsmodels.for...原创 2019-09-01 21:59:06 · 8049 阅读 · 0 评论 -
欧氏距离与余弦相似度
具体概念就不赘述了,参见对比欧氏距离与余弦相似度看论文1时注意到这个描述:在大多数情况下,欧几里德距离可以有效地捕捉物体之间的差异。然而,当数据集的维数增加时,Kriegel等人。[33]表明高维特征向量间的角度方差比直接使用欧氏距离更敏感。在这种情况下,余弦相似度可以获得更好的效果。有必要再看看原始文献2是怎么说的,感觉没有所说的这么神乎其神啊。纯粹个人观点,后期再改。Applyin...原创 2019-07-20 23:06:26 · 645 阅读 · 0 评论 -
Robust PCA
本文是一个小wiki。Robust PCA即鲁棒PCA原创 2019-07-07 11:26:23 · 804 阅读 · 2 评论 -
Huber Regression(Huber回归)
Huber回归的优化目标函数如下:minw,σ∑i=1n(σ+Hϵ(Xiw−yiσ)σ)+α∥w∥22\min _{w, \sigma} \sum_{i=1}^{n}\left(\sigma+H_{\epsilon}\left(\frac{X_{i} w-y_{i}}{\sigma}\right) \sigma\right)+\alpha\|w\|_{2}^{2}w,σmini=1∑n...原创 2019-07-20 20:52:31 · 8548 阅读 · 0 评论