数据分析
文章平均质量分 88
洌泉_就这样吧
Less is more.
展开
-
基于状态匹配的多核RBF模型
本文是我参加2017年DDCLS(数据驱动控制、学习和系统)会议汇报内容整理而来,详细内容请参看发表的会议论文“An Adaptive Multi-Kernel RBF Model Using State Matching”1 背景众所周知,系统辨识问题存在于很多领域,例如金融领域中研究股票的走势,气象领域中预测降雨可能性,交通运输领域中预测道路拥堵然而,用过去研究的方法仍然有很多问题难以解决现实的系统几乎都是非线性和时变的,采用带有固定结构和参数的静态模型往往难以求解为了应对这样的问题,.原创 2021-04-27 11:25:30 · 411 阅读 · 0 评论 -
Python可视化入门
可视化路漫漫,一步一个脚印往前走!S0 写在前面最近一直在可视化的道路上不断前行,看书+码代码一开始是看浙大陈为他们写的《数据可视化》,了解可视化的一些基本知识然后是看可视化工具,Python可视化只是其中之一本文是基于《Python数据可视化编程实战》内容总结的主要是关于Python可视化入门的基础内容,更多是以例子和程序来总结S1 环境设置需要安装库:matplotlib、Numpy、Scipy、PIL、Requests可使用预打包环境:EPD、Anaconda、Pytho.原创 2021-04-27 11:26:26 · 223 阅读 · 2 评论 -
CFSFDP聚类算法
聚类分析又称聚类,是把一个数据集合划分为多个集群(cluster)的过程,使得相同集群内的数据之间具有相似性,不同集群的数据之间具有差异性。聚类是数据挖掘、统计分析的主要任务之一,应用于机器学习、模式识别、图像处理、信息检索、生物信息、数据压缩和计算机图像等领域。(From 维基百科)1 聚类算法总结常用的聚类算法包括:(1)启发式分割算法:起始确定K个中心点,用距离公式来判断数据点归属,用代价函数(如最小化平方和)评价聚类结果,迭代直至最优,例如:K-Means,K-Medoids。(2).原创 2021-04-27 11:26:41 · 5661 阅读 · 2 评论 -
概率密度估计之Parzen Window
kernel density estimation是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)本文翻译自英国雷丁大学(Reading University)Xia Hong老师的讲义材料1 概率密度函数连续概率函数p(x)p(x)p(x)的数学定义满足以下特性:xxx介于aaa、bbb两点之间的概率为P(a<x<b)=∫abp(x).原创 2021-04-26 19:21:30 · 2997 阅读 · 1 评论 -
迁移学习(Transfer Learning)
1 迁移学习概念机器学习和数据挖掘的基本假设(1)用于学习的训练样本与新的测试样本满足独立同分布的条件(2)必须有足够多的训练样本才能学习得到一个好的分类模型然而,由于系统的特征往往会随时间改变,因此数据的特征空间和分布规律也会发生变化如果每次针对新问题都需要对数据做标签的任务,代价是十分高昂的,因此,迁移学习的目的在于应用过去的知识来快速有效解决新问题。 迁移学习可应用与分类、回归和聚类问题迁移学习与domain adaptation、multitask learning and sa.原创 2021-04-26 19:17:28 · 4496 阅读 · 0 评论 -
谱聚类(Spectral Clustering)
谱聚类算法是基于标准线性代数求解的,比传统的聚类方法(如K-means)效果好谱聚类的两个关键的数学依据是相似图和图拉普拉斯聚类的目标是将数据集划分成若干组子集,使得组间差异性最大而组内差异性最小1 图论相关知识用图论的角度思考,将每个数据点视为顶点,而数据点之间的相似性视为边,则可以定义相似图G=(V,E)G=(V,E)G=(V,E),则聚类问题转化为用最小的代价去划分图,使得不同组间边的连接权值总和尽可能小,而组内边的连接权值总和尽可能大相似图是无向图,可以建立邻接矩阵W=(wij)i,.原创 2021-04-26 19:12:43 · 493 阅读 · 0 评论 -
高斯过程回归(Gaussian Process Regression)
在概率论和统计学中,高斯过程是指观测发生在连续域(例如:时域、空间域)中的一种特殊的概率模型1 基本概念在高斯过程,连续的输入空间的任何点与正态分布的随机变量相关,而且任何随机变量的有限集合满足多重正态分布,例如变量间的任意线性组合是正态分布,高斯过程分布是所有随机变量在连续域中的联合分布在机器学习理论中,针对于推广训练数据(generalize train data)的算法,如果学习方法在对系统发出请求之前进行,称为急切学习(eager learning),如果学习方法滞后于对系统的请求,称.原创 2021-04-26 19:10:47 · 5715 阅读 · 0 评论 -
辛普森悖论及贝叶斯解释
辛普森悖论(Simpson’s Paradox)亦有人译为辛普森诡论,为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。(from 百度百科)关于辛普森悖论的统计学解释是贝叶斯置信网络在因果推论中的重要应用。1 问题描述考虑一个关于疾病用药的病人恢复情况的医学实验。两组实验分别在40个男性和40个女性中进行。实验数据如下所示:实验探究的问题是:药物是否会提高病人的康复机率.原创 2021-04-26 19:04:36 · 2194 阅读 · 0 评论 -
核方法(Kernel Mehthod)
1、核技巧(Kernel Trick)2、核函数(Kernel Function)原创 2016-08-17 17:28:24 · 614 阅读 · 0 评论 -
超限学习机(ELM)
ELM(Exteme learning machine,超限学习机),由新加坡南洋理工大学的Guangbin Huang(黄光斌)副教授提出的。原创 2016-08-17 16:45:10 · 11791 阅读 · 0 评论 -
机器学习总结
机器学习算法总结 机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率统计、非线性优化、信息论、人工智能、计算复杂性和控制论等多门学科。目的是用计算机模拟或实现人类的学习行为,随着经验积累自动提高性能。原创 2016-08-16 15:18:13 · 6639 阅读 · 0 评论 -
隐马尔科夫模型
隐马尔科夫模型(hidden Markov model,HMM)是可用来解决标注问题的统计学模型。HMM由初始状态概率分布π、状态转移矩阵A、状态观测概率矩阵B组成,称为HMM的三要素,表示为。此外,定义所有可能状态的几何Q,所有可能观测的集合V,以及一个随机生成的状态序列I和对应的观测序列O。 对这些变量怎么理解呢?下面举个例子。 假设有3个盒子( ),每个盒子装有红白两色的原创 2016-08-17 14:58:04 · 590 阅读 · 0 评论