machineLearning
文章平均质量分 77
夏未眠秋风起
这个作者很懒,什么都没留下…
展开
-
随机森林原理
阅读目录 1 什么是随机森林?2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率(oob error)6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容回到顶部 1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模...转载 2020-10-03 19:27:44 · 2834 阅读 · 0 评论 -
交叉熵与极大似然估计的关系
看了博客记录一下笔记图片来自https://blog.csdn.net/u012505617/article/details/108753869原创 2020-10-03 18:54:30 · 269 阅读 · 0 评论 -
交叉熵,相对熵,为什么损失函数用交叉熵
前言在处理分类问题的神经网络模型中,很多都使用交叉熵 (cross entropy) 做损失函数。这篇文章详细地介绍了交叉熵的由来、为什么使用交叉熵,以及它解决了什么问题,最后介绍了交叉熵损失函数的应用场景。要讲交叉熵就要从最基本的信息熵说起1.信息熵信息熵是消除不确定性所需信息量的度量。(多看几遍这句话)信息熵就是信息的不确定程度,信息熵越小,信息越确定。 (因为事件都有个概率分布,这里我们只考虑离散分布)举个列子,比如说:今年中国取消高考了,这句话我们很不确定(甚至心里还觉得这TM是扯淡),那我们就要去转载 2020-10-03 14:43:54 · 1358 阅读 · 0 评论 -
K-Means算法及其变种,优缺点分析笔记
K-Mneans算法是常见,常用,常考的算法,因此这里做个笔记,多多复习。k-means算法的主要流程1.根据需求,初始化k个中心点2.为每个样本点计算他们和k个中心点的距离,找到距离最近的中心点,即该样本就属于这个中心点所代表的的类3.做完2后,就已经对样本做了一次分类了,接着计算每个类别中的样本点的均值,用这些均值代替原来的k个样本点。4.重复2,3知道满足一些条件(迭代次数,误差大小等)。距离有多种计算方法:距离度量的不同方法可以参考我的另一篇博客https://blog.cs原创 2020-10-03 13:17:46 · 2519 阅读 · 0 评论 -
相似度度量的不同方法
在机器学习,深度学习中,我们会用到许多方法去度量样本间的相似度。在参考了一些文章后,在这里总结记录一下。欧氏距离欧氏距离是最常用的方法。计算两点间的绝对距离。假设二维向量曼哈顿距离图像来自于https://my.oschina.net/u/4261771/blog/3399898曼哈顿距离计算方式:因此上面的四种颜色的曼哈顿距离是一样的。马氏距离马氏距离考虑了各个维度尺度不一致,且各个特征之间相关的情况。Σ是协方差矩阵,当中间的协方矩阵为单位阵的时候,马氏距离就原创 2020-10-03 10:14:33 · 2075 阅读 · 0 评论 -
maxout学习
一、相关理论 本篇博文主要讲解2013年,ICML上的一篇文献:《Maxout Networks》,这个算法我目前也很少用到,个人感觉最主要的原因应该是这...转载 2020-04-21 15:17:24 · 240 阅读 · 0 评论 -
机器学习基础——L1,L2正则化
正则化项可以看做损失函数中添加惩罚项,惩罚项的目的在于对其中的一些参数进行限制。L1正则化的模型又称为Lasso回归,使用L2正则项的模型又称为岭回归(Ridge回归)。L1: L1正则化就是对loss加上w的绝对值的和,也就是1范数L2: L2正则化就是对loss加上w的平方和,也就是2范数L1,L2都能用于防止过拟合,但是L2更常用。L1可以产生稀疏的权值矩阵,即产生一...原创 2020-04-18 21:21:02 · 197 阅读 · 0 评论 -
机器学习——支持向量机SVM学习总结
对于上图中的红叉和蓝圈,如果我们进行二分类,找到他的分类边界,那么有许多中可能(绿色,粉色,黑色)。但是,绿色和粉色的分类超平面,对于未知样本的预测效果会比黑色的差。支持向量机,就是去找到这样一个分类超平面,使得样本点到这个平面的距离最大。数学模型判别模型f(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b,把b当成w的一部分则f(x)=wTxf(x)=w^Txf(x)=wTx,对...原创 2020-04-18 11:52:29 · 726 阅读 · 0 评论 -
机器学习——不平衡分类指标
准确率(acc),代表分对的样本占所有样本的比例,在不平衡分类中不可信,比如当样本比例为99:1的时候,只需要让多数类都分对,准确率就可以达到99%,但实际上少数类却被全部分错了。查准率,又叫精确率,用查准率比较好理解,字面理解就是查的准不准,就是希望我判断为真的样本,有哪些是确实的是正的样本召回率(Recall, TNR, sensitivity),就是实际为正的样本中有多少...原创 2020-04-13 16:14:28 · 3353 阅读 · 0 评论 -
机器学习基础——PCA主成分分析算法
1.背景 PCA算法主要用于降维,将高维的特征映射到低维的空间中。假设,我没有20个数据,每个数据特征100维,即(20,100)。通过降维,我们可以将将100维的特征降到10维,即(20,10)这样就大大减小了计算量。一般,降维后的特征数不超过样本数2.算法步骤将每个特征进行零均值化,即每个特征减去该特征的均值,比如上面的例子(20,100)有100个特征,对每一列求均值...原创 2020-04-02 12:00:59 · 962 阅读 · 0 评论 -
XgBoost
GBDT与XGBoost小松qxs关注22019.01.29 16:56:47字数 5,807阅读 3,894之前介绍过梯度下降法与牛顿法,GBDT与XGBoost就与这两种方法有关。boosting(包括GBDT、XGBoost)是一个加法模型,有以下优缺点:优点:• 可解释性强• 可处理混合类型特征• 具体伸缩不变性(不用归一化特征)• 有特征组合的作用• 可...转载 2020-03-23 16:27:54 · 416 阅读 · 0 评论 -
GBDT资源收集
https://www.cnblogs.com/pinard/p/6140514.htmlhttps://www.cnblogs.com/ModifyRong/p/7744987.htmlhttps://blog.csdn.net/weixin_42933718/article/details/88421574原创 2020-03-14 13:09:39 · 101 阅读 · 0 评论 -
CART分类回归树
https://blog.csdn.net/weixin_36586536/article/details/80468426转载 2020-03-14 11:01:16 · 108 阅读 · 0 评论 -
集成学习4——boost
本博客仅用于知识记录,方便自己学习,有错误之处欢迎指正若有雷同请联系我参考:清华大学 袁博老师 数据挖掘课程参考:https://www.cnblogs.com/earendil/p/8872001.html1.boosting与bagging的区别: 1)boosting是串行训练的,而bagging是可以将多个分类器并行训练 2)bagging是有...原创 2020-03-11 15:39:19 · 417 阅读 · 0 评论 -
集成学习3——stack
本博客仅用于只是记录,方便自己学习,有错误之处欢迎指正若有雷同请联系我stack训练好了N个分类器,将N个分类器输出c1....ck作为输入,放到一个新的训练器当中去训练最终得到结果,h1....hk为不同的权重图片来自于清华大学 数据挖掘 课程...原创 2020-03-11 14:40:52 · 227 阅读 · 0 评论 -
集成学习2——bagging
本博客仅用于记录学习知识,如有雷同请联系我1.Bagging——BootStrap Aggregation bagging是有放回的取出样本中的部分样本,进行多次这种操作得到多组样本,用这些样本训练多个分类器,然后在预测的时候,用这些分类器进行预测,用这些预测值进行投票。比如7个预测为1,3个预测为0,则总的预测值就为1。2.典型算法随机森林——Random Forest...原创 2020-03-11 14:31:32 · 266 阅读 · 0 评论 -
集成学习1
1.概念俗话说:三个臭皮匠顶个诸葛亮。集成学习就是讲多个弱分类器,集成起来,比如对所有分类器结果求均值等方法。上图来字“清华大学数据挖掘课程”,上面三个单个的分类器集合起来后,得到下面的分类情况,分类结果比单个分类器要好,这是集成学习的特点。2.集成学习分类1)求均值2)投票 majority voting---random forest we...原创 2020-03-11 10:21:17 · 130 阅读 · 0 评论 -
西瓜书 习题3.3程序 matlab实现
所用数据0表示坏瓜,1表示好瓜 我在做的时候发现牛顿法和梯度下降法得到的曲线非常接近。所以只给出了梯度下降法的结果只需要在matlab中输入cal(即函数名)即可运行代码地址https://github.com/dqdallen/logisticRegression,下载即可运行结果 acc为精度,error为错误率,P,R分别为查准率和查全率 ...原创 2018-11-29 09:48:27 · 1349 阅读 · 1 评论 -
吴恩达机器学习(第七章)---逻辑回归
一、逻辑回归逻辑回归通俗的理解就是,对已知类别的数据进行学习之后,对新得到的数据判断其是属于哪一类的。eg:对垃圾邮件和非垃圾邮件进行分类,肿瘤是恶性还是良性等等。1.为什么要用逻辑回归:对于肿瘤的例子: 在外面不考虑最右边的样本的时候我们拟合的线性回归的函数(红色)的阈值可以用,在0.5左右,但是当包含最右边样本的时候,所拟合的函数(蓝色)出现较大偏差。所以像这样的问题就...原创 2018-10-28 09:54:05 · 238 阅读 · 0 评论 -
吴恩达机器学习(第八章)---正则化
在我们拟合的时候,根据我们选择函数的不同可能会出现欠拟合,拟合程度较好,过拟合。1.欠拟合和过拟合 欠拟合,上面第一张图就是欠拟合情况,欠拟合表现为所选的函数没有很好的拟合所给的数据,从图像上看就是很多数据都不在函数上,偏差大。过拟合,上面第二张图就是过拟合,过拟合表现为很好的拟合了所给的数据,几乎都在函数上,但是所选函数仅仅是对已给定的数据表现为很好的拟合,对于之后对新...原创 2018-10-29 13:34:31 · 229 阅读 · 0 评论 -
吴恩达机器学习(第九章)---神经网络
神经网络是非线性的分类算法。模拟人类的神经系统进行计算。1、原因当特征数很大的时候(比如100个),那么在假设函数的时候要考虑太多项,包含x1x2,x1x3,x2x3等等,不能仅仅单个考虑x1,x2等,这样一来,在拟合过程中的计算量就会非常大。2、基本概念其中,蓝色的最左边的是输入层(x1,x2,x3),最右边的是输出层(输出层可以有多个神经元),中间的都是隐藏层。每个箭头会对...原创 2018-10-29 14:40:34 · 215 阅读 · 0 评论 -
吴恩达机器学习(第一章)
机器学习可以分为监督学习和无监督学习两大类。一、监督学习监督学习就是在数据中有特定标注,会对数据进行分类,比如癌症例子。监督学习得到的结果可以预测某个新数据对应的结果(线性回归)或是该数据属于哪一类(逻辑回归)。比如癌症的预测,房价的预测等。圈和叉就分别标识两类数据,即在学习的数据中已标记该数据属于哪一类。监督学习又分为线性回归和逻辑回归。1.线性回归线性回归是所给数据...原创 2018-10-26 15:29:55 · 248 阅读 · 0 评论 -
吴恩达机器学习(第二章)----线性回归
线性回归要做的主要包含代价函数和梯度下降。一、基本解释线性回归的过程其实就是我们在选择好某个类型的函数之后去不断的拟合现有的数据,那么什么情况下我们这个函数是最符合,最贴近我们这些数据的呢?就是在代价函数的值最小的时候。二、代价函数假设要拟合的函数是h(x)= x0固定是1因此第一项表示常数。(m为数据的条数)代价指的就是h(x)与真实的y相差得多少。即求与真实值之间的...原创 2018-10-26 16:52:48 · 164 阅读 · 0 评论 -
吴恩达机器学习(第十四章)---无监督学习kmeans算法
一、kmeans算法Kmeans算法的流程:1.根据我们要分的类别数,就是你要将数据分成几类(k类),随机初始化k个点(暂且称为类别点)2.计算每个数据点到k个类别点的距离,将其归类到距离最近的那个类别点3.计算每一类中包含的数据点的位置的平均值,比如,包含a(x1,y1),b(x2,y2)两个点,那么平均值就是,z再将这个值赋给这个类别的类别点4.重复2,31二、优化...原创 2018-10-31 16:10:02 · 263 阅读 · 0 评论 -
一些Java机器学习工具和库
一些Java机器学习工具和库转载自:http://www.techweb.com.cn/network/system/2015-12-28/2247800.shtml 1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。2.Massive ...转载 2018-10-31 17:58:53 · 1072 阅读 · 0 评论 -
吴恩达机器学习(第十章)---神经网络的反向传播算法
一、简介我们在执行梯度下降的时候,需要求得J(θ)的导数,反向传播算法就是求该导数的方法。正向传播,是从输入层从左向右传播至输出层;反向传播就是从输出层,算出误差从右向左逐层计算误差,注意:第一层不计算,因为第一层是输入层,没有误差。二、如何计算设为第l层,第j个的误差。以上图为例,(y理想应该得到的结果,a是计算得到的激活项) (忽略正则项)...原创 2018-10-30 10:03:03 · 419 阅读 · 0 评论 -
吴恩达机器学习(第十三章)---支持向量机SVM
一、优化目标逻辑回归中的代价函数: 画出两种情况下的函数图像可得:y=1: 我们找一条折线来近似表示这个函数图像y=0: 我们用这两条折线来近似表示原来的曲线函数可得新的代价函数(假设-log(h(x))为,-log(1-h(x))为):(θ从第二个开始算起)在svm中的表示会与逻辑回归中有些差别即:(去掉1/m,C扮演这1/λ的作用但是不等于1/λ)...原创 2018-10-30 22:38:56 · 256 阅读 · 0 评论 -
吴恩达机器学习(第十五章)---降维PCA
一、目标1.数据压缩在机器学习中,会用到大量数据进行学习训练,当数据量很大,维度高时,对电脑内存的压力会很大,并且学习的速度也会很慢。2.可视化我们将一些高维的数据降维到1维,2维,3维的话,就可以进行可视化,将数据以图表的方式展示出来。二、主成分分析方法主成分分析方法(Principal Component Analysis (PCA))是目前比较流行的进行降维的算法。...原创 2018-11-01 10:20:22 · 393 阅读 · 0 评论 -
最小二乘
转载自https://blog.csdn.net/yuxiaoxi21/article/details/714693111.引言 言归正传,在此先列举一下最小二乘家族成员。最小二乘法直线拟合,最小二乘法多项式(曲线)拟合,机器学习中线性回归的最小二乘法,系统辨识中的最小二乘辨识法,参数估计中的最小二乘法,等等。...转载 2018-11-09 10:12:54 · 740 阅读 · 0 评论 -
拉格朗日乘子法和KKT条件
转载自:https://www.cnblogs.com/liaohuiqiang/p/7805954.html感谢作者PilgrimHui,讲解的很清楚 拉格朗日乘子法和KKT条件 0 前言上”最优化“课,老师讲到了无约束优化的拉格朗日乘子法和KKT条件。这个在SVM的推导中有用到,所以查资料加深一下理解。 1 无约束优化对于无约束优化...转载 2018-11-09 16:01:28 · 1224 阅读 · 0 评论 -
决策树
根据树形结构,一层一层网下判断,直到叶子节点就是所求的判断结果。一、基本流程如下图: 二、我们从集合中选择最优化分属性有以下方法:1.信息增益首先介绍“信息熵”的概念,信息熵用来度量样本纯度Ent越小,纯度越高,y是样本集合(D)的大小。pk表示第k类样本所占比例。假定离散属性a有V中可能的取值(a^1,a^2,...a^V),若用a进行划分,则会由V个分支点,每个分支...原创 2018-11-14 16:31:22 · 204 阅读 · 0 评论 -
模型评估和选择
一、经验误差与过拟合1.误差学习器的预测值与真是输出之间的差异称为“误差”。我们把学习器在训练集上的误差称为“经验误差”或者“训练误差”。在新样本上的误差称为“泛化误差”。2.过拟合与欠拟合过拟合就是由于学习能力过强,以至于把训练样本所包含的不太一般的特性都学到了。欠拟合就是由于学习能力低下造成的,很多数据不在拟合的函数上。关于过拟合和欠拟合,以及正则话,可以查...原创 2018-11-12 21:54:50 · 204 阅读 · 0 评论 -
吴恩达机器学习(第五章)--特征缩放和学习率
一、特征缩放 ----(1)对于我们假设的式子(1),可能存在这样一种情况就是有些数据远大于另一些数据(eg:x_1>>x_2)比如房子价格的例子:房子的面积要远大于房子的层数和房间数。在这种情况下可以看下图,所产生的等高线的圈会很窄,在做梯度下降的时候需要做很多次(红箭头)。这种情况下我们就可以进行特征缩放,将各类数据缩放在同一范围内。从而得到下图。特...原创 2018-10-28 09:04:39 · 794 阅读 · 0 评论