机器学习
文章平均质量分 67
latency_
这个作者很懒,什么都没留下…
展开
-
GAT论文阅读笔记-源码解读
图注意力网络论文:GRAPH ATTENTION NETWORKS. ICLR 2018原创 2022-01-07 11:38:00 · 629 阅读 · 0 评论 -
Batch Normalization
神经网络BN操作总结整理原创 2021-06-04 18:36:57 · 749 阅读 · 0 评论 -
频率学派、贝叶斯学派
@[TOC](频率学派、贝叶斯学派)频率学派最大似然估计,MLE贝叶斯学派最大后验估计,MAP最大后验估计中使用一个高斯分布的先验等价于最大似然估计加一个L2正则化!原创 2021-05-20 15:18:57 · 163 阅读 · 0 评论 -
方差、协方差
方差、协方差方差协方差方差与协方差的区别与联系方差方差一般写为:σ2\sigma^2σ2 或 Var(x)Var(x)Var(x)σ2=∑(X−μ)2N\sigma^2=\frac{\sum(X-\mu)^2}{N}σ2=N∑(X−μ)2XXX为统计数据,μ\muμ为样本均值,NNN为样本数.方差描述样本偏离均值的程度,或者说是样本的分散程度。协方差协方差一般用Cov(x,x)Cov(x,x)Cov(x,x)表示cov(x,y)=1n∑in(xi−μx)(yi−μy)cov(x, y)=\原创 2021-05-17 19:06:06 · 7615 阅读 · 0 评论 -
机器学习:决策树与集成学习 3
机器学习:决策树与集成学习 3XGBoostLightGBMXGBoostLightGBM原创 2021-05-14 23:28:19 · 147 阅读 · 0 评论 -
机器学习:决策树与集成学习 2
机器学习:决策树与集成学习 2集成学习BaggingBoostingStacking集成学习的偏差与方差偏差方差Bagging的偏差与方差Boosting的偏差与方差随机森林 Random ForestAdaBoostGBDT集成学习BaggingBoostingStacking集成学习的偏差与方差偏差方差Bagging的偏差与方差Boosting的偏差与方差随机森林 Random ForestAdaBoostGBDT...原创 2021-05-14 23:27:57 · 481 阅读 · 0 评论 -
机器学习:决策树与集成学习 1
机器学习:决策树与集成学习 1决策树决策树的生成(划分选择)ID3C4.5CART决策树决策树是一类常见的机器学习算法,也可以指学习得到的树模型。决策树是基于树结构来进行决策的,一棵决策树包括一个根节点,若干内部节点和若干叶子节点。每个部分对应的功能:根节点:样本全集叶节点:决策结果内部节点:属性测试决策树的生成(划分选择)决策树的生成是一个递归的过程。决策树的内部节点划分选择是一个属性测试的过程,节点的划分选择主要有三种方法:ID3、C4.5、CARTID3ID:Dterative原创 2021-05-14 16:52:56 · 550 阅读 · 0 评论 -
论文笔记:域适应——SCA
论文笔记:域适应——SCA论文论文解读论文中一些概念Scatter component analysis (SCA)SCA伪代码总结补充论文Muhammad Ghifary, David Balduzzi, W. Bastiaan Kleijn, and Mengjie Zhang. 2017. Scatter component analysis: A unified framework for domain adaptation and domain generalization. IEEE Tra原创 2021-05-11 23:46:39 · 1050 阅读 · 0 评论 -
论文笔记:Doamin Adaptation——JGSA
论文笔记:JGSA论文论文解读JGSA伪代码总结论文Jing Zhang, Wanqing Li, and Philip Ogunbona. 2017. Joint geometrical and statistical alignment for visual domain adaptation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’17).论文解读Joint原创 2021-05-11 23:22:09 · 941 阅读 · 1 评论 -
数据预处理:静态连续变量
数据预处理:静态连续变量第一步,离散化连续变量使模型更加稳健。然后将数值特征二值化,进一步将数值特征进行分箱,包括均匀分箱和和分数位分箱两种方法。第二部,缩放。不同尺度的特征之间难以比较,特别是在线性回归和逻辑回归等线性模型中,在基于欧氏距离的k-means聚类或者KNN模型中,就需要进行特征缩放,否则距离的测量是无用的,而对于任何使用梯度下降的算法,缩放也会加快收敛速度。标准缩放方法1:标准缩放,Z分数标准化,对异常值敏感,因为异常值会同时影响到均值和标准差。公式:MinMaxScaler方原创 2021-05-11 16:11:32 · 282 阅读 · 0 评论 -
可再生核希尔伯特空间 (RKHS, reproducing kernel Hilbert space)
可再生核希尔伯特空间1、空间:包含元素和结构(规则)。2、线性空间:定义了加法和数乘的空间。3、度量空间:定义了距离的空间距离的定义有欧氏距离、曼哈顿距离、闵科夫斯基距离、马氏距离、切比雪夫距离。距离是两个元素对应一个数。4、赋范空间:定义了范数的空间,范数是指元素的“长度”,理解为一个元素对应一个数,范数针对一个元素而言,距离是针对两个元素而言的。有了范数一定能定义距离,但是有距离不能定义范数。5、线性赋范空间:定义了加法、数乘和范数的空间。6、巴纳赫空间:就是完备的赋范空间。完备的定义:原创 2021-05-11 15:56:25 · 1143 阅读 · 0 评论 -
Data Leakage
Data Leakage什么是数据泄露?数据科学的中的数据泄露(Data Leakage)和其他场合涉及信息安全的数据泄漏不一样,是指一些feature不是在因果关系上顺利释预测值的‘因’,而是预测值的‘果’,存在和利用这种因果倒置的feature的现象,叫数据竞赛中的Data Leakage。Data Leakage 基本都是竞赛主办方在准备数据或者数据采样的时候出了问题,误将与结果直接相关或存在颠倒因果关系的feature纳入了数据集。这样的纰漏,比较难以发现。数据泄露的案例:Data Lea原创 2021-05-11 15:53:13 · 217 阅读 · 0 评论 -
数据预处理:标准化与归一化的区别
矩阵标准化与归一化的区别标准化是依照特征矩阵的列处理数据,通过z-score方法,将样本的特征值转换到同一量纲下,要求原始数据的分布近似为高斯分布,否则标准化的效果会变得很糟糕,可以通过现有样本进行估计,在已有足够数量的样本的情况下比较稳定,适嘈杂大数据场景。标准化的原理比较复杂,它表示原始值与均值之间差多少个标准差,是一个相对值,所以能够达到去除量纲的效果,最大的优势在于使数据的均值为0,标准差为1。均值为0可以使数据以0为中心左右分布,而数据以0为中心进行左右分布会带来很多方便,比如在去中心化的数据原创 2021-05-11 11:53:50 · 2299 阅读 · 0 评论