机器学习
文章平均质量分 76
https://github.com/scutan90/DeepLearning-500-questions
我跟着记录下自己的理解,以及一些代码教程。
赫凯
人生如逆旅,我亦是行人。
展开
-
tigramite教程(八)Tigramite 异方差偏相关加权最小二乘法教程
Tigramite 是一个用于时间序列分析的 Python 模块。它允许根据 PCMCI框架从离散或连续值的时间序列重构图形模型(条件独立图),并创建结果的高质量图形。PCMCI 在这里有所描述:J. Runge, P. Nowack, M. Kretschmer, S. Flaxman, D.对于 PCMCI 的进一步版本(例如,PCMCI+, LPCMCI 等),请参见相应的教程。本教程解释了如何应用偏相关条件独立性检验的加权最小二乘变体(ParCorrWLS)。原创 2024-04-21 17:42:39 · 1183 阅读 · 0 评论 -
tigramite教程(七)使用TIGRAMITE 进行条件独立性测试
这个表格概述了X⊥Y∣ZX⊥Y∣Z的测试及其相关的假设条件独立性检验假设条件ParCorr连续变量XYZX,Y,ZXYZ,具有线性依赖关系和高斯噪声;XYX,YXY必须是单变量连续变量XYZX,Y,ZXYZ,具有线性依赖关系,对不同边缘分布具有鲁棒性;XYX,YXY必须是单变量ParCorrWLS连续变量XYZX,Y,ZXYZ,具有线性依赖关系,可以处理异方差依赖关系;XYX,YXY必须是单变量连续变量XYZX,Y,Z。原创 2024-04-04 17:58:46 · 1172 阅读 · 0 评论 -
tigramite教程(六)使用TIGRAMITE 进行因果发现
TIGRAMITE 是一个时间序列数据分析的python包,它基于PCMCI框架,可以从离散或连续值的时间序列中重建图形模型(条件独立性图),并创建高质量的结果图。本教程通过演示示例来解释主要功能。最后,以下的《原创 2024-03-13 18:33:07 · 1583 阅读 · 6 评论 -
tigramite教程(五)使用TIGRAMITE 进行自助聚合和链接置信度量化
TIGRAMITE是一个用于时间序列分析的Python模块。它基于PCMCI框架,允许从离散或连续值时间序列中重建因果图模型,并创建结果的高质量图表。本教程解释了时间序列因果发现的自助聚合(Bagging),该方法在函数中实现。自助聚合是一种通用的元算法,可与TIGRAMITE的大多数因果发现方法结合使用,例如run_pcmcirun_lpcmci等,包括整个条件独立性检验范围。您可以参考以下预印本获取更多信息。原创 2024-03-13 16:36:57 · 973 阅读 · 0 评论 -
tigramite教程(四)TIGRAMITE的假设
TIGRAMITE 是一个针对时间序列的python 包,它可以从时间序列数据之间高效地发现关系。PCMCI 的 论文在这,之后的进阶版本,也会推出,这个教程解释因果假设,逐步给出了一个例子。原创 2024-03-13 14:56:39 · 1164 阅读 · 0 评论 -
tigramite教程(三)气候案例研究
此文件夹中的两个案例研究来自气候科学和生物地球科学,遵循以下综述论文中的QAD-问卷和方法选择流程图(包含在tigramite github教程文件夹中):综述论文的末尾列出了一些解决选定QAD问题的方法和软件。此案例研究以沃克环流为例,其中因果物理机制在所谓的气候遥相关方面有相当好的理解。请参阅论文中的更详细讨论。重点是沃克环流的赤道西部-中央太平洋分支。原创 2024-02-27 11:30:16 · 978 阅读 · 2 评论 -
tigramite教程(二)生物地球科学案例研究
这个文件夹中的两个案例研究来自气候科学和生物地球科学,遵循以下审查论文中的 QAD-问卷和方法选择流程图(包含在 tigramite github 教程文件夹中):该审查论文的末尾列出了一些用于解决选定 QAD 问题的软件和方法。这个例子将演示使用基于因果推断的技术来调查空气温度(Tair)对生态系统呼吸(Reco)的因果效应,数据还包括总初级生产力(GPP)和短波辐射(Rg)。原创 2024-02-26 17:36:17 · 1119 阅读 · 0 评论 -
tigramite教程(一)解释与假定或发现的因果模型相关的关联
在因果发现中的一个常见任务是证明和验证为什么一个假设或重建的因果网络是合理的。在这里,我们展示如何利用估计的图来构建一个模型,解释数据集的滞后相关结构。具体步骤如下:1、估计(马尔可夫等价类的)因果图2、如果马尔可夫等价类有多个成员(存在未定向的边),选择类的一个成员,这可以自动完成3、对从图中提取的因果父节点进行线性结构因果模型拟合4、估计残差的噪声协方差矩阵5、利用这种噪声结构构建线性高斯结构因果模型,并使用与数据相同的样本大小生成许多实现。原创 2024-02-26 15:44:59 · 1070 阅读 · 0 评论 -
熵 的理解
这里谈到的熵就是信息熵,信息熵是衡量一个事物系统不确定性的期望。说人话就是,在用到信息熵场景中,一定是有若干个0~1的数字。就去衡量一下它们的大小是否相差无几,如果都差不多大,熵值就大,若果有一个拔尖的很高,那么熵值就小。原创 2024-01-30 15:41:21 · 240 阅读 · 0 评论 -
Python 直观理解基尼系数
基尼系数最开始就是衡量人群财富收入是否均衡,大家收入平平,那就是很平均,如果大家收入不平等,那基尼系数就很高。我们接下来直接直观地看吧,程序说话。还是给老干部们讲的言简意赅。原创 2023-12-16 22:53:29 · 707 阅读 · 0 评论 -
【经典算法】随机森林
之前都是弄深度学习,没想到工作后,没有找到和深度学习强相关的,机器学习还是在客户那边挺认可,就学习一下机器学习里的知识咯。原创 2023-12-13 10:32:46 · 1060 阅读 · 0 评论 -
论文阅读 Forecasting at Scale (二)
最近在看时间序列的文章,回顾下经典。原创 2023-11-22 20:39:05 · 821 阅读 · 0 评论 -
论文阅读 Forecasting at Scale (一)
预测是一项常见的数据科学任务,能够帮助组织进行容量规划、目标设定和异常检测。尽管其重要性不言而喻,但在生产可靠且高质量的预测时面临着严峻挑战,特别是当涉及到多样的时间序列且具有时间序列建模专业知识的分析师相对稀缺时。为了解决这些挑战,我们描述了一种实用的、可扩展的预测方法,将可配置的模型与分析师参与的性能分析相结合。我们提出了一个模块化回归模型,具有可解释的参数,可以由对时间序列具有领域知识的分析师直观地调整。我们描述了性能分析来比较和评估预测过程,并自动标记需要人工审查和调整的预测。原创 2023-11-22 19:09:04 · 1086 阅读 · 2 评论 -
AutoML 简单分类
最近工作碰见一个棘手的事情,是给了固定长度数字,分下类。一开始用了深度学习网络,效果不太好,于是转向机器学习,带着先验知识来看看咋样。结果机器学习学起来头大,调参有点劝退,就试试自动化机器学习了。这个,是李沐大神开发的,基本上一切的结构化数据都可以操作,就照着做就好了。自动化机器学习的库有好多,我用了。原创 2022-11-01 17:27:03 · 251 阅读 · 0 评论 -
Python 高维数据降维聚类显示
先用 t-SNE 将数据进行降维,然后再依据聚类,做完聚类的结果在降维数据展示就可以了。就觉在这个图还蛮好看的。原创 2022-10-12 16:26:04 · 1521 阅读 · 3 评论 -
Python 画二分类的AUC
就是给一组数据,跟据预测的概率和数据对应的真实值,画一个图,直接代码说话。原创 2022-09-27 11:58:37 · 334 阅读 · 0 评论 -
Tensorflow2.0 自定义训练的方式求解函数系数
做曲线拟合逼近的时候,如果知道拟合的大致方程,如何求出方程的系数呢?其实在numpy中已经有函数去求多项式系数了,如下但是有时候曲线不只是多项式,而是指数函数、幂函数,这就需要我们自己写了,其实就和之前求线性函数的系数一样,只不过换了一个方程式就酱...原创 2022-07-04 09:36:18 · 265 阅读 · 0 评论 -
机器学习 Pandas一些领悟
Pandas一些领悟DatetimeIndexDataFramepd.merge十分钟掌握pandas(pandas官方文档翻译)这个的例子蛮详细的,跟着敲下来就好了,我做个小笔记。DatetimeIndexpd.date_range('20130101', periods=6)# 结果DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04', '2013-原创 2022-05-11 10:27:34 · 113 阅读 · 0 评论 -
机器学习的相关知识-常用的聚类方法
聚类就是按照某个标准,把数据集划分成不同的类,不同类的数据差异性尽可能大,同类的数据相似性尽可能大。k-means聚类算法K邻近算法,要把数据分成K类,一开始是随机的,后来迭代进行选择,直到收敛,采用平方误差。E=∑i=1k∑p∈Ci∥p−mi∥2E=\sum_{i=1}^{k}\sum_{p\in C_i}\left\|p-m_i\right\|^2E=i=1∑kp∈Ci∑∥p−mi∥2算法流程: 输入:包含n个对象的数据和簇的数目k; 输出:n个对象到k个簇,使平方误差准则原创 2022-04-06 20:21:09 · 1036 阅读 · 0 评论 -
机器学习的相关知识-支持向量机(SVM)
参考这篇【机器学习】支持向量机 SVM(非常详细)支持向量机SVM 又叫支持向量机,支持向量就是S、R、GS、R、GS、R、G这三个点,也就是边界点吧,支持向量机就是通过支持向量运算的分类器。如果对应到超平面的话,就是找到各类样本点到超平面的距离最远,也就是找到最大间隔超平面。背后公式定义一个超平面的方程:wTx+b=0w^Tx+b=0wTx+b=0其中w=(w1;w2;w3...wd)w=(w_1;w_2;w_3...w_d)w=(w1;w2;w3...wd)为法向量,决定方向,bbb原创 2022-04-03 09:41:17 · 1093 阅读 · 0 评论 -
机器学习的相关知识-决策树
基本原理决策树(Decision Tree)是一种分而治之的决策过程。一个困难的预测问题,通过树的分支节点,被划分成两个或多个较为简单的子集,从结构上划分为不同的子问题。将依规则分割数据集的过程不断递归下去(Recursive Partitioning)。随着树的深度不断增加,分支节点的子集越来越小,所需要提的问题数也逐渐简化。当分支节点的深度或者问题的简单程度满足一定的停止规则(Stopping Rule)时, 该分支节点会停止分裂,此为自上而下的停止阈值(Cutoff Threshold)法;有些原创 2022-04-01 15:32:29 · 1331 阅读 · 0 评论 -
机器学习的相关知识-LDA、PCA
线性判别分析(LDA)也是一种降维方法,思想就是多维空间中,数据处理分类问题较为复杂,LDA算法将多维空间中的数据投影到一条直线上,将ddd维数据转化成1维数据进行处理。对于训练数据,设法将多维数据投影到一条直线上,同类数据的投影点尽可能接近,异类数据点尽可能远离。对数据进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定样本的类别。“投影后类内方差最小,类间方差最大”看这个图就明白了,在现实中xxx不止两维,但是思想一样的,就是每个点到这条直线上的投影,同类的接近,异类的远原创 2022-03-31 10:37:14 · 1026 阅读 · 0 评论 -
机器学习的相关知识-梯度下降
这个知识点之前也是来来回回看了好久,我的理解是,因为没有办法一次性算出符合所有样本的目标函数,所以就只能每次一小步一小步地接近最优解,要知道其实一个样本就可以算出最优解了,但是还要兼顾其他样本。还是做的500问的笔记核心思想归纳:初始化参数,随机选取取值范围内的任意数;迭代操作:a)计算当前梯度;b)修改新的变量;c)计算朝最陡的下坡方向走一步;d)判断是否需要终止,如否,返回a);得到全局最优解或者接近全局最优解。我理解就是,代价函数或者损失函数找最小值,那就是可以求一些参数的偏导原创 2022-03-30 20:51:37 · 641 阅读 · 0 评论 -
机器学习相关知识-误差
代价函数代价函数,在训练逻辑回归模型中需要有个评判标准,让我知道模型参数是多少的时候,模型最优。值得注意的是代价函数是针对整个训练集样本的误差平均。一个好的代价函数需要满足两个最基本的要求:能够评价模型的准确性,对参数θ可微。就比如假设现在有好多个(x,y)(x,y)(x,y),把x,yx,yx,y的关系定义为:h(x)=θ0x+θ1h(x) = \theta_0x + \theta_1h(x)=θ0x+θ1如何找到最合适的θ0,θ1\theta_0, \theta_1θ0,θ1,那就是把每个原创 2022-03-30 14:58:53 · 993 阅读 · 0 评论 -
机器学习的相关知识-逻辑回归
这个资源真好机器学习500问,其实完全看这个就够了,我只是做一下笔记,膜拜膜拜。刚开始学的时候,因为是偏深度学习一些,导致一些基础的东西,不太牢靠,就记录一下,写的不好,请多担待。数学基础蛮重要,了解的但不仅限于矩阵、求导、矩阵相关运算(特征向量、特征值、奇异值等等)、概率(贝叶斯公式、各种分布)相关知识。逻辑回归生成模型,知道了联合概率概率密度模型P(X,Y)P(X,Y)P(X,Y),在求出后验概率P(Y∣X)P(Y|X)P(Y∣X),再利用它进行分类。贝叶斯P(Y∣X)=P(X,Y)/P(X.原创 2022-03-30 14:19:41 · 178 阅读 · 0 评论