机器学习
文章平均质量分 81
行路南
公众号:CV前沿
展开
-
关于训练集、验证集和测试集的理解
训练集是在训练阶段使用的数据集,训练集的目的是为了在既定的假设空间中找到一组最优参数。验证集是为了验证模型的效果。验证集的目的是为了寻找最优的超参数,比如神经网络的层数、每层节点的个数、优化器的选择、迭代的次数等。基于一组超参数,都可以通过训练集训练出一个最优的模型,然后通过验证集再比较每组超参数训练的模型的效果,从而得到最优的那组超参数。测试集是用于评估模型最终的泛化能力。原因在于我们通过手动调超参数,只要次数足够多,总能够找到一组超参数使模型在验证集上表现特别优秀。但不要忘了,验证集只是所有非训练.原创 2020-09-20 12:29:43 · 5094 阅读 · 0 评论 -
《动手学深度学习》PyTorch 版本总结(1)
通过伯禹学习平台和Kesic平台,参与了一项14天学习《动手学深度学习》课程,这本书是由李沐等大神编写而成,并提供了配套的视频和源代码。这次活动主要是将里面的Mxnet 框架改成了PyTorch 框架实现了一遍,并由上海交大的老师们再次讲述了一遍。以下内容均是记录学习过程中的一些学习知识点。Task 01(1)线性回归知识点1在求数值解的优化算法中,小批量随机梯度下降(mini-batch...原创 2020-02-14 21:20:47 · 1484 阅读 · 0 评论 -
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)
原文地址:https://github.com/ty4z2008/Qix/edit/master/dl.md《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An转载 2016-05-17 20:30:02 · 2856 阅读 · 0 评论 -
Anaconda 下安装opencv [win10 64bit]
因为要使用到import cv2 , 但anaconda默认的安装包中没有包含opencv 所以只能自己安装了。通常情况下常用的包可以通过conda install 来安装,我首先试了一下,发现安装不成功。 因此我网上搜了一下,这个可能和系统、版本有关,有的人可以,有的不行。所以对于你来说,可以先试一下。conda install -c https://conda.binstar.org/m原创 2016-08-03 15:57:43 · 12645 阅读 · 3 评论 -
基于Xgboost + LR + Keras 建模评估用户信用状态
项目背景 拍拍贷“魔镜风控系统”基于400多个数据维度来对当前用户的信用状态进行评估,通过历史数据每个借款人的性别、年龄、籍贯、学历信息、通讯方式、网站登录信息、第三方时间信息等用户信息以及对应的分类标签,在此基础上结合新发标的用户信息,得到用户六个月内逾期率的预测,为金融平台提供关键的决策支持。数据格式 数据下载–点这里 这里面包含三期数据,每期数据内容和格式相同,这里面包括两部分信息:原创 2016-08-03 21:57:31 · 16409 阅读 · 14 评论 -
猜你喜欢”推荐算法大赛冠军分享
最近在整理一些以往的比赛经验,下面这篇文章是我在DataCastle 参加“猜你喜欢”推荐算法大赛获得冠军的思路分享。我是Yes,boy! ,来自东北大学计算机学院。在猜你喜欢推荐系统竞赛中,很幸运取得第一名的成绩,下面我简单介绍下我的思路。 本次比赛的赛题背景是给出了约3400万条数据,包含一个商品网站站内顾客在某一时刻对某一个商品的打分值,分值范围为1至5分。目的是通过对这些数据的学习和训练,原创 2016-08-11 18:06:50 · 6621 阅读 · 0 评论 -
绪论(1)--周志华机器学习学习笔记与课后习题
1、机器学习机器学习这门学科,是致力于研究如何通过计算的手段,利用经验改变自身的性能。在计算机系统中,经验以数据的形式存在,机器学习所研究的内容是关于在计算机上从数据中产生模型的算法,即是学习算法。有了学习算法,我们把经验数据提供给它,它能够基于这些数据产生模型,在面临一个新的情况时,模型会给我们提供相应的判断。2、特征、记录与数据集记录是关于一个事件或者对象的描述,也称之为一个样本;数据集是由原创 2016-11-16 21:32:55 · 880 阅读 · 0 评论 -
绪论(2)--周志华机器学习学习笔记与课后习题
写在前面的话目前一段时间打算利用业务时间学习周志华版《机器学习》,周老师在机器学习界的实力很强,所以这本书不仅仅是一本介绍理论和算法的书籍,更是周老师关于机器学习相关问题的心得体会。如果你没有相关基础,学习一遍也会对机器学习有一个整体框架的了解;若你有了一定基础甚至怀着一些迷茫,读这本书更会有恍然大悟、原来如此之感触。在后续章节中,周老师基于篇幅的考虑有些算法不够详尽,我可能会参考李航老师的《统计学原创 2016-11-17 13:35:31 · 921 阅读 · 0 评论 -
绪论(3)--周志华机器学习学习笔记与课后习题
写在前面的话目前一段时间打算利用业务时间学习周志华版《机器学习》,周老师在机器学习界的实力很强,所以这本书不仅仅是一本介绍理论和算法的书籍,更是周老师关于机器学习相关问题的心得体会。如果你没有相关基础,学习一遍也会对机器学习有一个整体框架的了解;若你有了一定基础甚至怀着一些迷茫,读这本书更会有恍然大悟、原来如此之感触。在后续章节中,周老师基于篇幅的考虑有些算法不够详尽,我可能会参考李航老师的《统计学原创 2016-11-18 21:50:47 · 876 阅读 · 0 评论 -
numpy 基础知识
标准安装的Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表的元素可以是任何对象,因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3],需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。 此外Python还提供了一个array模块,array对象和列表不同,它直接保存数值,和C语言的一维数组比较类似。但是由于它不原创 2015-12-18 17:23:59 · 698 阅读 · 0 评论 -
最小二乘法求解的两种表示方法
问题表述:有训练数据集T={(x1,y1),(x2,y2),⋯,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\},其中,样本个数为N,每个样本有m个属性,xi∈R,yi∈Rx_i\in R,y_i\in R, 预测未知样本集的输出。 很明显这是一个回归问题,我们想要求出一个回归函数 hw(x)h_w(x)(在线性回归下可以表示成hw(x)=∑mi原创 2015-12-18 12:50:51 · 5073 阅读 · 0 评论 -
支持向量机(1)
支持向量机在1992年被正式发表,最开始时研究线性可分支持向量机,与它相似的算法是感知机,感知机学习的策略是误分类点最少;而线性支持向量机的学习策略是间隔最大化。之后相继引入了惩罚因子和核函数的概念,能够处理线性支持向量机和非线性支持向量机。 所以整体的逻辑是分别理清三类支持向量机的关系,能够明白最终都是转化为求解凸二次规划问题;那么我们通过序列最小最优化算法SMO求解这个问题即可。那么具体逐一介原创 2015-11-27 11:36:52 · 825 阅读 · 0 评论 -
支持向量机(2)
第一节已经介绍了直接求解线性可分支持向量机的方法,但求解过程往往复杂。所以我们可以转换思路:将该问题作为原始问题,应用拉格朗日对偶性,通过求解对偶问题得到原始问题的解。这样做的好处:求解更加容易可以引入核函数,方便推广到非线性分类问题对偶问题对偶问题求解步骤:根据原始问题,构造拉格朗日函数: L(w,b,α)=12||w||2+∑i=1Nαi(1−yi(w⋅xi+b))=12||w||2−原创 2015-12-13 18:37:02 · 596 阅读 · 0 评论 -
线性回归
线性回归文章分三块,第一块线性回归模型,第二块模型策略,第三块学习算法。原创 2015-10-21 12:07:15 · 910 阅读 · 0 评论 -
逻辑回归
逻辑回归内容分三块,第一部分逻辑回归模型,第二部分是策略,第三部分是学习算法。1. 构造分类函数 Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数)。函数形式为:g(z)=ez1+ezg(z)=\frac{e^z}{1+e^z} g(z)函数可以将自变量从(−原创 2015-10-21 09:13:19 · 771 阅读 · 0 评论 -
支持向量机(3)
以上两节讨论的都是线性可分的数据集,都是线性不可分的情况,上述模型不能解决。例如有一些离群点,将这些离群点除去后,剩下的大部分数据集是线性可分的。 这时线性不可分意味着部分样本点不能满足函数间隔大于等于1的约束条件,则可以对每个样本点加入一个松弛变量ξi\xi_i,使得函数间隔加上松弛变量大于等于1,这样约束条件变为:yi(w⋅xi+b)+ξi≥1y_i(w\cdot x_i+b)+\xi_i原创 2015-12-13 21:55:38 · 537 阅读 · 0 评论 -
决策树(1)ID3
一、决策树在1986年,机器学习研究者J.Ross Quinlan 开发了决策树算法,称为ID3(Iterative Dichotomiser,迭代的二分器)。这项工作扩展了E.B.Hunt,J.Marin 和P.T.Stone 的概念学习系统。Quinlan 后来提出了C4.5、C5.0算法。与ID3发明几乎同时,1984年统计学家L.Breiman,J.Friedman,R.Olshen 和C.原创 2015-11-25 11:00:08 · 1364 阅读 · 0 评论 -
决策树(2)CART
上一篇文章介绍了基于ID3的决策树,讲到了其中的关键元素是:特征选择、决策树构造以及剪枝;同样,CART(classification and regression tree)同样由这三个方面组成,但在每一个方面具体的实现上有所不同,这也正是我们这篇文章要关注的重点。为了使CART决策树有一个完整的过程,所以这篇文章还是将每一块内容都写出来,对上一篇已经实现的算法直接贴代码,对两个算法不同之处重点介原创 2015-12-06 19:09:20 · 617 阅读 · 0 评论 -
k近邻法
k近邻法是一种基本的分类与回归方法。k近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多值。k近邻法思想:1. 根据给定的距离度量方法,找出训练数据集中与实例x最相邻的k个点;2. 在k 个点中,根据分类决策规则,决定x 的类别。 k近邻法中,当训练数据集、距离度量、k值、分类决策规则确定后,对于任何一个新的输入实例,它所属的类唯一的确定;这相当于将特征空间划分为一些子空原创 2015-11-23 22:02:13 · 1293 阅读 · 0 评论