![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
becgiggs
这个作者很懒,什么都没留下…
展开
-
pytorch安装后,import torch报Microsoft Visual C++ redistributable 没有安装的解决办法
会给你个下载链接,下载VC_redist.x64这个文件。我反复装了这个文件,又反复装了vs以及vs的各种组件,装了从2008到现在,所有的redistributable都不行。。。中间也怀疑过python版本,从python官网上下的(默认是32bit的,至今我也没在python官网上找到哪有64的,直接baidu下的)。网上还有人说32bit的python支持64的,兼容性好。。。一切都在换成python 64bit以后就不再报错了。报的是另外一个caffe2_detectron_ops.dll原创 2020-09-16 19:58:42 · 2374 阅读 · 8 评论 -
Pytorch详解NLLLoss和CrossEntropyLoss
转载自: https://blog.csdn.net/qq_22210253/article/details/85229988转载 2020-05-04 09:23:16 · 193 阅读 · 0 评论 -
自注意力学习笔记
一个多月以前看了看,现在有些记不清了,大体回忆一下,先写一部分。http://jalammar.github.io/illustrated-transformer/要想搞明白,最快速的方法,不是看网上乱七八糟的介绍,直接看上面的链接。用心点,很快读完,基本就掌握自注意力了。先说我看的时候一个疑惑,就说这张图吧,Wq和Wk,这两个是完全对称的,差异在哪里?为什么取的名字不...原创 2020-03-15 11:36:10 · 284 阅读 · 0 评论 -
torchtext field与example对应关系
fields = [('id', None), ('query12', text_field), ('random', label_field),('label', label_field)]examples.append(data.Example.fromlist([None, text, label], fields))按顺序对应的,id是None,query12对应的是text...原创 2020-03-15 10:57:34 · 1265 阅读 · 0 评论 -
linux 上装gpu pytorch遇到打那些坑 , 已成功安装
(1)linux用哪个发行版。推荐ubuntu。虽然很多人说manjaro很简单。但是第一,manjaro用的都是最新的东西。而常用的框架未必支持。比如,默认的python3.8,截至本博客,tf pytorch都还是3.7,所以,你未必简单。 其次,manjaro的资料确实太少,一旦按照网上的资料(也确实简单)安装失败,真的是束手无策。 第三,也是最坑,这货的稳定性太差了,我更新了一下驱动...原创 2020-01-26 20:28:46 · 436 阅读 · 0 评论 -
Manjaro安装cudnn10 ,无法make,提示找不到nvscibuf.h的解决办法
/usr/local/cuda/samples/Makefileedit line 41:FILTER_OUT := 0_Simple/cudaNvSci/Makefile貌似我是中文网上第一个贴的。。。原创 2020-01-24 17:59:40 · 1621 阅读 · 3 评论 -
本穷鬼攒的一台用于深度学习用电脑
本人穷困潦倒,屋子小,钱少。最近在闲鱼上攒了一台深度学习用的电脑。全部二手,一共花了10400。CPU,9700k。 9700我估计应该也没问题。板子 z390p。 这个板子给i7的cpu超频的话,估计不太行。可以内存小超。华硕的板子,质量应该不差。内存16g 。 先试着用一下,不够了,就升级到32g。机械硬盘1T。 机械硬盘本身就非常便宜,再买两块也容易,而...原创 2020-01-16 15:11:30 · 2848 阅读 · 1 评论 -
LSTM 注意力学习心得简要
1个月前看的,快忘了,紧急回忆一下。首先说一下看图像识别时候,百思不得其解的一个事儿,就是自动调整框框,如果识别一条狗,训练的时候,狗都出现在右下角,那么,测试的时候,是不是只能识别右下角的狗,是的,是有一定的区域分布的,就要求训练的时候,狗的位置要分布均匀比较好,这样权重w,就会分布到各处。 最让我困惑的是,调整RPN的4个参数△P_MoveLeft,△P_MoveTop,△P_Enlar...原创 2019-05-21 09:23:08 · 2745 阅读 · 1 评论 -
从continuation method 到课程学习(Curriculum Learning)
continuation method是一种思想,就是不能一口吃个胖子,一步一步的解决问题。ch初衷是为了解决非凸问题的解决,就如上图的黑色。 分步骤的方法有很多。其中就包括了上图的红色,对黑色做模糊处理。课程学习,以及基于课程学习(Curriculum Learning)的自步学习Self-paced Learnings是另外一种思路。就是学习要从简单的开始,一步一步来。先学初等数...原创 2019-03-16 21:04:30 · 2575 阅读 · 1 评论 -
花书笔记之梯度下降的回忆
随机梯度 SGD,一次训练一个样本,不稳定,可能不收敛到全局最优。mini batch,一次训练一组样本,上下波动厉害。计算量少。全部样本,计算量太大,收敛快,全局最优。一般是mini batch。基本的,按梯度更新。动量(滑动平均),很像股市里的MACD。v^n = K* v^n-1+ (1-K)v^n。 如果本次方向与之前不一致时,可以向回拉一下,这样就不会来回...原创 2019-03-14 11:36:20 · 296 阅读 · 0 评论 -
GBDT和Xgboost总结
首先从Xgboost的优点说起,从网上搜,很容易搜到Xgboost与一般梯度提升树比, 一个是用了泰勒级数的二次项,一个是增加了惩罚系数,对树的复杂度进行惩罚。那么问题来了。如果你看李航老师的统计学习方法,里面似乎没有看到泰勒级数,倒是看到了负梯度,拟合附梯度。而传统的树,你制作完成了,也有剪枝的过程。那么xgboost这个二次项体现在哪里?首先一个问题。泰勒级数这么优美的公式,为啥唯独在...原创 2019-03-04 10:51:11 · 340 阅读 · 0 评论 -
win7上安装tensorflow时候遇到的那些坑
呼哧呼哧,终于好了,周末两天就这么消耗过去了。说一下搞死我的坑。1、import error, 可能原因: (1)vc_redist.x64。注意要是2015以及以下版本,刚开始装了个2017的。 (2) cudn5.1,注意不能是6,我就是下载的6,这个折腾,换成5就好了。2、cuda 注意不要随便升级显卡驱动,它自带原创 2017-07-09 18:58:06 · 371 阅读 · 0 评论 -
图像识别学习笔记 - 最后一部分非原创
激励函数sigmoid 对应交叉熵损失函数,因为梯度下降的快。推导思路:另损失函数对输出的倒数等于输出与期望输出的差,也就是正比于损失,损失越大,输出越大。然后,再做积分,就退出来交叉熵这个损失函数了。激励函数是sotfmax,对应损失函数最好是log likehood。梯度下降也非常快。道路检测:灰度处理,先把颜色去掉,去的时候,可以根据颜色进行灰度加权。比如,红色更醒目,加原创 2017-09-05 11:06:18 · 369 阅读 · 0 评论 -
用线性代数里投影矩阵解最小二乘
向量b,在列空间A中的投影是 x = b。投影矩阵就是。这个投影距离也很好玩。投影的长度与A无关(A扩大2倍,/ 的除数和被除数都相应的扩大了4倍。),A是决定方向的。 b可以决定长度,当然,也包括方向。 最小二乘就是给定一组向量输入数据A,和,对应的输出b。 由于A是观测数据,所以,给出一大堆,根据这一堆去求b,实际上是求不出来的,列向量的个数小于行向量。或者,有无穷多解。 ...原创 2018-06-10 16:42:47 · 530 阅读 · 0 评论 -
交叉熵的由来
交叉熵的是由如下两个输入条件,求积分,得来的公式:(1)损失函数得是sigmond。(2)梯度需要正比于输入和输出的差值,也就是输入和输出差值越大,对参数的调整力度越大。假设输入是y,输出是a,则梯度方向就是y-a。 推导过程如下:y = wx + b。 最终输入是梯度方向就是(式1): σ(Z)就是激励函数。我们需要的梯度方向如下(式2):令式1等于...原创 2018-07-18 09:28:45 · 1191 阅读 · 0 评论 -
关于正则惩罚L2 norm里w越小越好的一些另类思考
以下全是本博主一派胡言,把深度学习看成是一种乐趣,而不是压力,在探索中,发现了很多乐趣: 一,现在通常用的激励函数,在input比较大的时候,不饱和,也就是分类效果好,而在input比较大的地方趋于饱和。w越小,就意味着input = wx+b比较小,也就是落在不饱和区的可能性更大,也就是更接近于线性。 二,黑色的直线显然比紫色的线泛华能力更好,黑色直线的w要小于紫色线的斜率...原创 2018-10-09 21:21:28 · 778 阅读 · 0 评论 -
花书笔记
岁数大了,过两天就忘。赶紧记几笔。 混合概率密度网络,一个x对应多个输出y的时候用。用多个高斯分布来模拟,网络的输出是高斯分布里的u和sigma还有各个高斯分布的权重。训练集里的y是高斯分布里的输入,就是y-u/sigma里的y。损失函数是求出的联合概率密度应该最大。 为啥网络越深越好,可以参考设计软件,模块间关系组织的好,可以通过函数调用实现功能,而不是把代码黏贴的到处都是。...原创 2018-11-15 15:33:50 · 113 阅读 · 0 评论 -
FitNet网络
从花书,知道了fitnet网络,用花书的说法,这是一种预训练的技术。, 看fitnet原始论文看的云里雾里,原来需要先看知识蒸馏(KD,knowleadge distilling)。知识蒸馏可以看做是一种知识迁移。老师先学习,学习到的结果,注意这个结果是老师网络的output,比如,softmax输出是一组概率,原始标签是one-hot。这里说的就是softmax输出。所谓蒸馏,就是这个...原创 2019-03-14 09:19:51 · 5153 阅读 · 0 评论 -
SVM学习总结
1、为啥要大于等于1,为啥是1/||w||,上面的函数间隔为啥可以忽略?这里做了简化处理,把支持向量到分离超平面的距离简化为1了。相当于做了一个标准化,这就是规定。 因为函数间隔通过调整,通过w 和b的等比例变化,是可以忽略的。 你可以把1/||w|| 和 s.t.后面的条件同时放大缩小同样的倍数。直观的理解就是,法向量定了之后,在硬间隔下,其实,你就可以找到那个超平面了,只原创 2017-05-06 12:44:45 · 336 阅读 · 0 评论