![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 94
SpadeA_Iverxin
学无止境
展开
-
SVM算法原理和python代码实现(SMO)
SVM文章目录SVM1.基本概念:1.2 数据集:1.1 函数间隔:1.3 几何间隔:2. SMO描述算法:2.1 算法流程2.2 选择策略2.3 预测:3. 代码实现:4. Reference1.基本概念:支持向量机就是找到一个平面,能够将训练样本一分为二。可见SVM是用于二分类的。如果存在这么个平面能够将样本一分为二,没有任何误差,就叫做线性可分。如果有个别的分错了,就叫做线性不可分。1.2 数据集:T={(x1,y1)...(xN,yN)}T = \{(x_1,y_1)...(x_N,原创 2021-05-07 20:28:34 · 1390 阅读 · 0 评论 -
论文阅读:Attention is all you need、Attention原理
[TOC]这篇文章可以说是把Attention机制发扬光大的文章。提出了一个交Transformer的模型,对,就是变形金刚的那个transformer。Transformer模型只使用注意力机制(Attention mechanisms)来实现Encoder和Decoder,没有使用其他的RNN或者CNN。Transformer模型是一个Seq2Seq的模型,即输入是一个序列,输出也为一个序列。模型架构:从模型架构上来看,主要有以下几个部分:左侧是Encoder,右侧是Decoder,他们主原创 2021-04-23 21:26:48 · 925 阅读 · 9 评论 -
论文阅读 - 特征提取-Concrete Autoencoders: Differentiable Feature Selection and Reconstruction(2017)
文章目录干货部分概述与目标方法描述Concrete Selector LayerConcrete random variablesConcrete selector Layer训练伪代码:其他笔记(湿货部分)特征选择方法分类(同西瓜书11章-11.2/11.3/11.4):Filter(过滤式):Wrapper(包裹式)Embedded(嵌入式)问题表述干货部分概述与目标特征选择的关键一步是特征选择矩阵,假设这个矩阵是Wk×nW^{k\times n}Wk×n,样本是Xn×1X^{n\times 1}原创 2021-03-30 21:36:39 · 1728 阅读 · 2 评论 -
论文阅读 - Unsupervised feature selection via transformed auto-encoder(2019)
[TOC]题目概括一种特征选择器,用来移除不相关的特征,减少计算量,加速计算过程提升性能表现。结构模型分成三部分:通过深度自动编码器得到的受正交约束的indicator matrix指示矩阵。使用非负最小二乘法,获得近似的、非负的指示矩阵 (算法第8部)通过指示矩阵来选择出特征选择矩阵(feature selection matrix),并且使用K-means算法来评估模型。(算法性能评估部分)Related worksLS Laplacian score作为过滤方法。但是原创 2021-02-28 18:38:52 · 885 阅读 · 0 评论 -
Pytorch中LSTM与GRU的使用与参数理解
Pytorch中LSTM与GRU的使用在pytorch中,LSTM模块调用和GRU类似。下面调用以GRU为例。GRU初始化rnn = nn.GRU(input_size, hidden_size, num_layers, bias, batch_first, dropout, bidirectional)input_size: input的特征维度hidden_size: 隐藏层的宽度num_layers: 单元的数量(层数),默认为1,如果为2以为着将两个GRU堆叠在一起,当成一个GRU原创 2021-01-29 09:58:22 · 5003 阅读 · 1 评论 -
论文阅读24 - VAE - Variational AutoEncoder (Auto-Encoding Variationl Bayes)
VAE一篇讲的很好的博客理论推导博客论文原文斯坦福课件上面的博客已经很好很深入了,下面记录一下我个人的直观理解。具体理论移步上面的博客。这里只是作为日后使用时的快速查阅。不具有理论推导的严谨性。1. 直观理解:第一次接触VAE还是在World Model这篇论文。VAE主要由三部分组成:Encoder 编码器,用来中间向量z分布,即p(z∣x)p(z|x)p(z∣x)z向量 Encoder的输出,Decoder的输入。可以当做降维之后的输入。p(z)p(z)p(z)Decoder原创 2020-11-16 14:25:44 · 825 阅读 · 0 评论 -
论文阅读23 - Mixture Density Networks(MDN)混合密度网络理论分析
Mixture Density Networks最近看论文经常会看到在模型中引入不确定性(Uncertainty)。尤其是MDN(Mixture Density Networks)在World Model这篇文章多次提到。之前只是了解了个大概。翻了翻原版论文和一些相关资料进行了整理。1. 直观理解:混合密度网络通常作为神经网络的最后处理部分。将某种分布(通常是高斯分布)按照一定的权重进行叠加,从而拟合最终的分布。如果选择高斯分布的MDN,那么它和GMM(高斯混合模型 Gaussian Mixtu原创 2020-11-14 16:02:49 · 6556 阅读 · 0 评论 -
BatchNormalization和ResNet好文收录
BatchNormalizationResNet原创 2020-11-06 09:35:22 · 168 阅读 · 0 评论 -
最近总结和几篇好文收录
LSTM理论基础长短期记忆网络这篇博客《如何简单的理解LSTM——其实没有那么复杂》)介绍的很好英文原文《Understanding LSTM Networks》图片来自上述博客在应用的时候,我们只需要处理外部的三个变量hth_tht, ctc_tct, xtx_txtpytorch使用解析LSTM相关的有两个已经包装好的类 LSTM和LSTMCell区别在于:LSTM类的默认输入一系列时间步,然后它你能够自动处理每一层的输出,不需要手写前向传播LSTMCell是LSTM原创 2020-11-02 16:42:04 · 115 阅读 · 0 评论 -
2020年10月14日:最近几天复现论文踩坑记录
最近踩的坑:在ddpg算法类的actor网络中输入1个state来获取action,要扩展成batch_size为1的tensor。否则出来的维度不同,导致后面计算熵出错。出错还好,就是怕不报错,就需要慢慢排查。对于target类网络,不需要使用梯度更新的,可以关掉梯度来节省内存提高速度。iterator.chain()返回的迭代器只能使用一次,for循环后将失效。需要重新创建迭代器。(因为这个原因导致critic的网络没有被更新)l1 = [1,2,3]l2 = [4,5,6]l1原创 2020-10-14 19:34:18 · 175 阅读 · 0 评论 -
机器学习/数据挖掘——PageRank
PageRankDescribe以前的搜索引擎检索和排序网站都是内容相似度检索,在1996年前后,由于两个原因:网页的数量迅速增加,相关网页数量很大,从大量相关的网页中选出10-30个计算量很多大。容易产生垃圾网页。都过网页中不断重复关键词,从而提高网站的相关度。所以通过超链接进行排序的算法被发明出来。(April,1998 Sergey Brin and Larry Page )...原创 2019-11-17 17:55:01 · 208 阅读 · 0 评论 -
机器学期/数据挖掘——K-means和KNN
1. K-means1.1. Feature:k-means均值聚类是一种无监督学习。它将相似的对象归到同一个簇中。簇识别(cluster identification)给出聚类结果的含义。聚类与分类的却别是分类的目标先已知。k代表簇的个数,有用户指定,每个簇通过质心(centroid)描述。质心是所有点的中心。1.1.1. Advantage:容易实现1.1.2. Disad...原创 2019-11-04 11:05:34 · 242 阅读 · 0 评论 -
机器学习/数据挖掘-----EM算法推论和相关数学知识
文章目录1. EM 算法推论和相关数学知识1.1. Describe1.2. Theory1.2.1. 先验概率&后验概率1.2.2. 极大似然估计/条件概率 (通过原因求结果)1.2.3. Jensen不等式1.2.4. 联合概率密度&边缘概率密度1.2.5. 数学期望相关1.2.6. 推导过程1. EM 算法推论和相关数学知识1.1. DescribeEM(Expecta...原创 2019-10-20 18:46:20 · 227 阅读 · 0 评论 -
机器学习——基于决策树的C4.5、CART算法原理和区别
文章目录1. C4.51.1. 1.1 Feature:1.1.1. Advantage1.1.2. Disadvantage1.2. 1.2 Describe1.2.1. 决策树剪枝1.2.2. 连续型属性1.2.3. 缺失值处理1.2.4. 规则集诱导1.3. Theory1.3.1. 递归伪代码1.3.2. 每个结点的特征选取1.3.2.1. 信息熵计算1.3.2.2. 信息熵增益1.3.2...原创 2019-10-07 16:50:22 · 646 阅读 · 0 评论