机器学习
凯旋的皇阿玛
小白
展开
-
使用scikit-learn学习K-Means聚类
步骤:K-Means 聚类算法的大致意思就是“物以类聚,人以群分”:(1)首先输入 k 的值,即我们指定希望通过聚类得到 k 个分组;(2)从数据集中随机选取 k 个数据点作为初始中心点(质心);(3)对集合中每一个小弟,计算与中心点的距离,离哪个中心点距离近,就属于哪个中心点。(4)这时每一个中心点下都聚集了一些样本,这时候召开选举大会,每一群选出新的中心点(即通过算法选出新的质心)。...转载 2019-03-18 22:41:52 · 2305 阅读 · 1 评论 -
降维之线性判别分析(LDA)
文章目录思想推导比较LDA是一种有监督学习算法。在PCA中,算法没有考虑数据的标签(类别),只是把数据映射到一些方差比较大的方向而已。思想LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的,这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”,即最大化类间距离,最小化类内方差推导(1...原创 2019-03-17 14:49:23 · 430 阅读 · 0 评论 -
scikit-learn决策树参数解释
参数DecisionTreeClassifierDecisionTreeRegressor特征选择标准criterion可以使用"gini"或者"entropy",前者代表基尼系数,后者代表信息增益。一般说使用默认的基尼系数"gini"就可以了,即CART算法。除非你更喜欢类似ID3, C4.5的最优特征选择方法。可以使用"mse"或者"mae",前者是均方差,后者是和均...转载 2019-03-20 19:02:28 · 574 阅读 · 0 评论 -
降维之PCA原理及推导
文章目录1、PCA思想2、基础知识推导最大化方差理论推导步骤最小平方误差理论主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。是一种线性、非监督、全局降维算法两种方法:最大化方差理论、最小平方误差理论1、PCA思想PCA旨在找到数据中的主成分,并利用这些主成分表征原始数据,...原创 2019-03-16 21:34:42 · 750 阅读 · 0 评论 -
最小二乘法
最小二乘法小结以最简单的线性回归为例:损失函数:J(θ0,θ1,..θn)=12m∑j=0m(hθ(x(j))−y(j))2J(\theta_0,\theta_1,..\theta_n) = \frac{1}{2m}\sum_{j=0}^m (h_\theta(x^{(j)})-y^{(j)})^2J(θ0,θ1,..θn)=2m1∑j=0m(hθ(x(j))−y(j))2使用...翻译 2019-03-15 21:48:42 · 196 阅读 · 0 评论 -
优化之牛顿法
文章目录牛顿法基本思想:算法流程牛顿法和拟牛顿法是求解无约束最优化问题的常用方法,有收敛速度快的优点。牛顿法基本思想:在现有极小点估计值附近对f(x)做二阶泰勒展开,进而找到极小点的下一个估计值。**牛顿法最大的特点就在于它的收敛速度很快。**牛顿法是一种迭代算法,每一步都需要求解目标函数的Hessian矩阵的逆矩阵,计算比较复杂。φ(x)=f(xk)+f′(xk)(x−xk)+12f′...原创 2019-03-19 19:55:42 · 432 阅读 · 0 评论 -
梯度下降
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1.梯度下降直观解释首先来看看梯度下降的一个直观的解释。比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最...翻译 2019-03-15 20:25:01 · 242 阅读 · 0 评论 -
机器学习之方差、偏差
模型过于简单必然导致偏差过大,过于复杂必然导致方差过大a、欠拟合:偏差过大,做特征工程、减小(弱)正则化系数;b、过拟合:方差过大,可增加样本、减少特征、增加(强)正则化系数;1、模型偏差bias偏差是指预测结果与真实值之间的差异,排除噪声的影响,偏差更多的是针对某个模型输出的样本误差,偏差是模型无法准确表达数据关系导致,比如模型过于简单,非线性的数据关系采用线性模型建模,偏差较大的模型是...原创 2019-08-04 09:51:24 · 872 阅读 · 0 评论