请叫我Ricardo-CSDN博客

原创 pytorch调用COCO数据集和生成词向量

前言做项目要用到coco数据集，于是找了一些开源的数据加载程序，惭愧的是我clone以后就忘了是哪来的了数据数据解析COCO下载地址：https://cocodataset.org/#download以2014的val为例，40504张图片，每幅图对应5句话，共202654句话两份py文件cocoapi从这里下载COCO API: https://github.com/cocodataset/cocoapi，下载后放在train.py同个路径下，这是from pycocotools.coc

2021-02-17 17:21:21 957 2

原创机器学习记录—传统模型

1、前言自己总结的一些问题的答案，都是个人拙见，算是一个记录，防止自己遗忘，如果有错误，欢迎指正。2、内容2.1 线性模型Sigmoid的优缺点优点：Sigmoid能将数据压缩在0,1之间，适合于概率预测，其次方便求导缺点：sigmoid()函数存在饱和区，在反向传播时候容易造成梯度消失SVM多分类怎么处理？SVM本身是为了二分类问题实际的，处理多分类问题则需要构造合适的分类器有一种直接的办法是修改目标函数将多个分类面的参数求解合并成一个最优问题，通过求解这个问题实现多分类，但缺点是计算

2021-01-10 15:20:11 417

原创深度学习记录—神经网络

1、前言自己总结的一些问题的答案，都是个人拙见，算是一个记录，防止自己遗忘，如果有错误，欢迎指正。2、内容神经网络防止过拟合的方法有哪些？一般来说，采用使用L1正则、L2正则、参数共享、提前终止、Dropout方法可以有效地防止过拟合。L1正则化L1正则化则是在lost function后面加上了w的一范式，即各个参数的绝对值之和。其对应的次梯度不再是线性缩放w，而是添加了一项与w同号的常数。所以当w为正的时候，更新后的w变小，当w为负的时候，更新后的w变大。而最优值是w=0，所以L1正则化会

2021-01-10 15:07:09 227

原创集成学习之Boosting（二）GBDT和XGBoost

前言上个月我说要写关于梯度提升树和XGBoost的博客，结果写比赛文档和做视频耽搁了，期间还专门读了读陈天齐的原论文，兜兜转转，终于可以开始写博客了。这篇博客我会简单介绍GBDT，和XGBoost的推导，毕竟XGBoost是基于GBDT的改进，还有XGBoost相对于CBDT的提升与工程化运用。本篇博客参考机器学习-一文理解GBDT的原理GBDT算法原理深入解析原版论文（en）GBDT介绍我们知道，Boosting模型通过弱分类器的不断相加得到最终的强学习器，Adaboost是通过边训练边修

2020-06-12 23:08:59 484

原创集成学习之Boosting（一）Adaboost

前言我接下来将介绍集成学习Boosting，这是一种很常用的统计学习方法，以下是我总结的内容。基本思路我们知道，Boosting是一种不断将弱分类器相加，且边训练边修改样本权重分布和基学习器分类权重的算法。需要知道的是，boosting采用的是加性模型，也就是最终的集成是弱分类器的加权求和H(x)=∑m=1Mαtht(x)H(x)=\sum_{m = 1}^{M} \alpha_{t} h...

2020-04-21 20:37:30 276

原创 pytorch入门级教程之vgg实现cifar-10图像识别

前言挺久之前老师留的大作业，因为是上古模型和玩具级别的数据集，所以写完了就一直放着，后来看了几本优化的书想起来这个入门实验，想到当初准确率没上九十，没有被老师课堂表扬一番倒是挺遗憾的。于是想着让参数多迭代的想法，回去稍微改了改batch_size，然后结果从之前的89.9%升到了90.2%，无语了。说实在这个很多人写过了，烂大街了都，追求高准确率的同学可以看看其他的了，刚入门的同学很多应该会直...

2020-04-13 23:11:20 9308 27

原创集成学习之模型融合（二）Blending

简介blending是和stack同性质的集成学习方法，都是通过组合多个弱学习器生成的输出作为最终学习器的输入而得到一个更好的结果，但是他们的数据划分方式有所区别，而且生成次级训练集的方法更简单了。其实也是很久之后我才想起来我写了stacking，所以不能漏掉blending。想看stacking的请跳转模型融合stacking基本思想1、划分数据集我们将data划分为train和tes...

2020-04-01 23:53:22 1202 3

原创支持向量机SVM（三）软间隔与松弛变量的替代损失函数

前两篇关于SVM的讨论中，我们只讨论了样本在原始空间和特征空间中线性可分的情况，但是，现实不可能这么完美，就算真的被找到了，但是世上没有免费的午餐，最后的结果很可能过拟合了。所以要来讨论一下，怎么付出一点小小的“代价”，让我们在使用SVM时能得到最优模型。前两篇SVM系列一：支持向量机SVM（一）原始函数与对偶函数SVM系列二：支持向量机SVM（二）Kernel核函数软间隔有软便有硬，...

2020-03-04 22:51:40 1979

原创支持向量机SVM（二）Kernel核函数

上一篇中，我们提到了SVM的原始函数与等价于对偶函数后的推导，这次来谈一谈低维度映射高维求超平面的核技巧。SVM系列一：支持向量机SVM（一）原始函数与对偶函数Kernel核技巧开局一幅图，内容全靠编在之前讨论原始函数与对偶函数的时候，我们都是以训练样本是线性可分作为假设，也就是说假设样本空间中一定存在一个超平面，能将所以样本正确分类，但是仔细想想这在现实中几乎不可能，就如左上图的样本分...

2020-03-04 01:13:05 582

原创支持向量机SVM（一）原始函数与对偶函数

间隔与支持向量此篇文章对支持向量机推导过程进行详解，仅作为本人纪录一遍对SVM的复习过程。所有公式已做手动推导，为了美观（字丑），将选择贴出周老先生西瓜书的一些结论和李航统计机器学习和南瓜书推导过程。先贴一副情况图作为开头。如上图，SVM 的主要思想是找到几何间隔最大的超平面对数据进行正确划分，中间那条黑线将会是我们的超平面。主观上来看，它具有更强的鲁棒性，因为他距离样本两边都有合适的距...

2020-03-03 01:51:17 1181

原创通过梯度下降实现logistic（对数几率）回归，含公式推导和代码实现

总所周知，logistic regression算法是一个十分经典的机器学习算法，可用于回归和分类任务。它在广义上说也是一种线性回归模型，不过是在线性回归的基础上加入了kernel函数，包括高斯核，多项式核，线性核等，于是可以解决线性回归难以解决的非线性问题。倘若从损失函数的角度来看，LR的损失函数是基于极大似然函数的，（具体做法是加了Log和负号），而传统线性回归模型的损失函数是最小二乘损失...

2020-01-22 21:32:10 2593 1

原创 Pandas 数据处理（一）缺失值处理

Pandas 数据处理（一）缺失值处理缺失值处理缺失值详细位置data.isnull()有缺失值的特征列data.isnull().any()提取出有缺失值的行data[data.isnull().values==True]缺失值删除data.dropna(how='any',axis=0,inplace=True)how : {‘any’, ‘all’}，‘an...

2019-12-13 12:50:09 1084

原创集成学习之模型融合（一）Stacking

集成学习Stacking（模型融合）简介在数据竞赛中有这一种方法，它是一个强有力的武器，只要能够善于使用，它就是无往不利，无坚不摧的那把利剑，更是被称为数据竞赛胜出的杀手锏。它通过构建并结合多个弱学习器组合形成一个强大的学习器来完成学习任务，俗称为模型融合，其实他采用的就是集成学习的思路。接下来就先介绍模型融合（集成学习）中的其中一个方法stack。基本思路1、划分数据集我...

2019-09-11 21:41:34 2991 3

原创 Unbutu Nvidia驱动，Cuda，Cudnn，pytorch-gpu 安装

Unbutu 19.04 Nvidia驱动，Cuda，Cudnn，pytorch-gpu 安装写博客之前，很感激一些大神愿意和我们分享他们的经验，在我配置环境时对我有所帮助，所以在这里我贴出他们的博客地址，也提供给大家参考Ubuntu18.04上安装cuda10.0：https://blog.csdn.net/tanmx219/article/details/86210023>Ubu...

2019-09-09 08:59:15 804

原创 Ubuntu Anaconda下载安装以及其python3 环境变量配置

Ubuntu19.04 Anaconda下载安装以及其python3.7环境变量配置1、下载Anaconda官网下载：https://www.anaconda.com/distribution/接下来选择系统，记得选linux系统，直接点击下载即可下载完成后cd Downloads #(你要直接打开下载也无所谓)bash **** #（Anaconda安装文件名，输入An然...

2019-09-06 22:12:53 867

Ricardo的博客