机器学习
文章平均质量分 73
cyoutetsu
这个作者很懒,什么都没留下…
展开
-
梯度下降
梯度下降法梯度下降法(gradient descent)是求解无约束最优化问题的一种常用方法,是一种迭代算法。*这里可以对比之前介绍的拉格朗日对偶性是解决有约束条件下的最优化方法。原理步骤目标函数假设 f(x)f(x) 是 RnR^n 上具有一阶连续偏导数的函数,现在要求解它的无约束最优化问题,即 minx∈Rnf(x)\min\limits_{x\in R^n} f(x)。原理选取适当的初值 x(原创 2017-08-24 17:22:41 · 588 阅读 · 0 评论 -
ID3决策树的Python代码实现
ID3决策树的Python代码实现原创 2017-08-30 11:12:10 · 594 阅读 · 0 评论 -
DBSCAN聚类
DBSCAN聚类首先需要说明的是,密度的定义为在给定半径范围内样本点的数量。算法步骤标记对于每一个样本点,在其周边的给定半径的范围内,其余样本点的数量不小于指定的数量的话,这个样本点就是核心点(core point)如果小于指定的最小值,但是其半径范围内有核心点的话,这个点就是边界点(border point)剩下的点称为噪声点(noise point)划分每个核心点或者距离相近的几个核心原创 2017-09-25 11:53:31 · 399 阅读 · 0 评论 -
K-Means算法
K-MEANS算法K-MEANS算法用质心定义原型,其中质心是一组点的均值。算法步骤1.随机选择K个点作为初始质心这是一种常见的选择质心的方法,但是簇的质量常常很差取一个样本,并使用层次聚类技术对它聚类,从层次聚类中提取K个簇,并用这些簇的质心作为初始质心随机地选择第一个点,或取所有点的质心作为第一个点,选择离已经选取过的初始质心最远的点作为一个个后续的初始质心二分K均值使用后处理来修补所产原创 2017-09-17 14:55:40 · 646 阅读 · 0 评论 -
决策树原理
决策树决策树模型决策树是一种基本的分类和回归的方法,在它的基础上,会衍生出随机森林、XGBOOST等包含了模型融合的方法。我们可以从两个视角来观察决策树模型:决策树的构成决策树由结点(node)和边(directed edge)组成,其中结点由两种类型:内部结点(internal node)和叶节点(leaf node)。如果训练数据被分到内部结点,表示它还可以继续往下分;如果被分类到叶结点上,则表原创 2017-08-30 11:11:16 · 437 阅读 · 0 评论 -
SVM
支持向量机支持向量机的学习方法包含由简单到困难的三种分类方法:线性可分支持向量机线性不可分支持向量机非线性支持向量机线性可分支持向量机假设给定一个特征空间上有训练数据集 T=(x1,y1),(x2,y2),...,(xn,yn)T={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)},其中 y={+1,−1}y=\{+1,-1\},再假设样本数据点是线性可分的。目标是找出一原创 2017-09-07 17:02:36 · 331 阅读 · 0 评论 -
逻辑回归原理
逻辑回归之前在线性回归的章节中,我们了解了 线性回归 的原理就是把点落在一条直线上,而在逻辑回归的部分则是希望能够把点落在一条曲线上,这是广义的线性回归,然后我们再用一个阈值来将那些点分开而达到分类的效果。而在 最大熵原理 的指导下,我们知道了那条曲线应该是一个什么样子的。LR和最大熵模型首先,回顾我们之前推导出的最大熵模型为:exp(∑i=1nwifi(x,y))∑y exp(∑i=1nw原创 2017-08-23 16:33:22 · 1064 阅读 · 0 评论 -
线性回归的数学原理以及代码实现
线性回归的数学原理以及代码实现首先要说的是线性模型想要得到的是一个线性组合。狭义的线性回归是想要把所有的点(或者叫特征)用一条直线来拟合,也就是图像上的点要尽可能地落到直线上。而广义的线性回归就不一定非要是直线了,例如在逻辑回归中用的就是一条对数几率的曲线,也就是图像上的点要尽可能的落到那条曲线上面。在这篇文章中主要对线性回归作讨论: 首先呈上线性模型f(x)=wTx+bf(x)=w^Tx+b【优原创 2017-08-22 10:14:26 · 1650 阅读 · 0 评论 -
数据规范化
数据规范化的方法数据归一化数据归一化是指把数据压缩到[0,1]的区间内。1. Min-Maxsklearn.preprocessing.MinMaxScalar 将数据压缩到Min到Max组成的区间,并使其结果落在0到1的范围内。 x=x−minmax−minx = \frac{x-min}{max-min}2. z-scoresklearn.preprocessing.StandardScal原创 2017-08-15 15:29:40 · 1050 阅读 · 0 评论 -
ROC曲线特征
An Introduction to ROC Analysis [T. Fawcett, 2005]ROCROC是以FPR为X轴,以TPR为Y轴的曲线。表示的是模型的效果(由TPR表示)和损失(由FPR代表)的相对关系和取舍概况。 分类器对不同样本给出了更偏向正例还是反例的的概率值,然后这些概率值可以和一些人为设定的阈值比较从而得出最终的分类结果。例如,大于阈值的就是正例,小于阈值的就是反例。可原创 2017-08-15 15:41:04 · 2438 阅读 · 0 评论 -
数据不平衡问题
数据不平衡问题数据不平衡问题实际上指的就是y的分布相差很大的问题,又称为类别不平衡问题。出现这种问题的原因是在实际取样中,有可能会出现一类的y数量远远大于另一类的例子。一个很明显的例子就是在做信用卡还款预测的时候,一定是按时还款的人占据绝大多数,不按时还款的人占一小部分,那如果机器无脑预测新客户一定会还款,正确率是很高的,但是这样的预测显然不是我们想要的。那么如何解决这种类型的问题呢?不仅从样本取样原创 2017-08-26 17:58:03 · 425 阅读 · 0 评论 -
聚类分析框架
优化目标聚类分析仅根据在数据中发现的描述对象及其关系的信息。将数据对象分组,其目标是:组内对象之间是相似的不同组的对象是不同的换句话说,也就是组内相似性越大越好,组间的差别越大越好。聚类的种类划分聚类(partitional clustering):将数据对象集划分成不重叠的子集层次聚类(hierarchical clustering):嵌套的集簇,组合成一棵树互斥的(exclusive原创 2017-09-26 09:05:57 · 898 阅读 · 0 评论