![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习算法
文章平均质量分 82
九城风雪
这个作者很懒,什么都没留下…
展开
-
向量搜索和Faiss 使用指南
FAISS 是 Facebook 推出的向量搜索库,里面提供了高性能的向量搜索工具。转载 2024-01-07 20:52:13 · 269 阅读 · 0 评论 -
Python进行线性规划求解
使用python处理多目标线性规划问题原创 2022-06-11 21:31:55 · 753 阅读 · 1 评论 -
K-means
K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。1. K-Means原理初探 K-Mea...转载 2019-08-23 23:30:04 · 338 阅读 · 0 评论 -
正则化为什么能防止过拟合(重点地方加粗了)
正则化方法:防止过拟合,提高泛化能力转载:https://www.cnblogs.com/alexanderkun/p/6922428.html在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大...转载 2019-02-27 21:18:54 · 256 阅读 · 0 评论 -
梯度下降(Gradient Descent)
参考链接:http://www.cnblogs.com/pinard/p/5970503.html 在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是...转载 2018-09-04 10:26:10 · 215 阅读 · 0 评论 -
蒙特卡罗采样算法
3.1 随机模拟随机模拟 (或者统计模拟) 方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于 20 世纪 40 年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯. 诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法, 并在最...转载 2018-08-29 11:43:03 · 6871 阅读 · 0 评论 -
K-means原理、优化及应用
K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。1. K-Means原理初探 K-Me...原创 2018-08-23 14:48:59 · 97307 阅读 · 3 评论 -
如何感性地理解EM算法?
如果使用基于最大似然估计的模型,模型中存在隐变量,就要用EM算法做参数估计。个人认为,理解EM算法背后的idea,远比看懂它的数学推导重要。idea会让你有一个直观的感受,从而明白算法的合理性,数学推导只是将这种合理性用更加严谨的语言表达出来而已。打个比方,一个梨很甜,用数学的语言可以表述为糖分含量90%,但只有亲自咬一口,你才能真正感觉到这个梨有多甜,也才能真正理解数学上的90%的糖分究竟是怎...转载 2018-08-27 18:13:02 · 313 阅读 · 1 评论 -
手把手教写出XGBoost实战程序
简单介绍:这是一个真实的比赛。赛题来源是天池大数据的 "商场中精确定位用户所在店铺"。原数据有114万条,计算起来非常困难。为了让初学者有一个更好的学习体验,也更加基础,我将数据集缩小了之后放在这里,密码:ndfd。供大家下载。在我的数据中,数据是这样子的: train.csvuser_id 用户的id time_stamp 时间戳 latitude 纬度...转载 2018-08-14 21:46:21 · 6400 阅读 · 6 评论 -
XGBoost基本原理
XGBoost的实现,我觉得主要还是在于对GBDT的改良上。对于GBDT还是不太熟悉的朋友,请看我这一篇文章《GBDT》。我个人认为这两者区别主要还是在于细节上,理解了GBDT我认为就差不多等于理解了XGBoost。我重点比较一下XGBoost与GBDT两种算法的不同:XGBoost的目标函数与GBDT存在泰勒展开项的不同:最基本的差距就在于XGBoost比GBDT多了两项泰勒展开...转载 2018-08-14 21:44:27 · 1686 阅读 · 0 评论 -
GBDT(Gradient Boosting Decision Tree)基本原理
GBDT相对于经典的决策树,算是一种比较成熟而且可以实际应用的决策树算法了。我们想要理解GBDT这种决策树,得先从感性上理解这棵树的工作方式。首先我们要了解到,DBDT是一种回归树(Regression Decision tree)。回归树与分类树的差距请看我的文章《经典的回归树算法》。我们知道,分类树在每一次分支的时候,穷举每一个特征的每一个阈值,然后按照大于或者小于阈值的方式将其相互分开。...转载 2018-08-14 21:41:15 · 4975 阅读 · 0 评论 -
模型评价(一) AUC大法
问题:AUC是什么 AUC能拿来干什么 AUC如何求解(深入理解AUC)AUC是什么混淆矩阵(Confusion matrix)混淆矩阵是理解大多数评价指标的基础,毫无疑问也是理解AUC的基础。丰富的资料介绍着混淆矩阵的概念,这里用一个经典图来解释混淆矩阵是什么。显然,混淆矩阵包含四部分的信息:True negative(TN),称为真阴率,表明实际是负样本预测成负样本的样...转载 2018-07-27 20:22:14 · 208 阅读 · 0 评论 -
交叉验证与训练集、验证集、测试集
参考:李航–《统计学习方法》 https://www.jianshu.com/p/7e032a8aaad5 https://zhuanlan.zhihu.com/p/20900216?refer=intelligentunit训练集、验证集、测试集如果给定的样本数据充足,我们通常使用均匀随机抽样的方式将数据集划分成3个部分——训练集、验证集和测试集,这三个集合不能有交集,常见的比例是8:1:1。需...转载 2018-07-16 15:57:14 · 11124 阅读 · 5 评论 -
机器学习实战教程:决策树基础篇之让我们从相亲说起
摘要本篇讨论决策树的原理和决策树构建的准备工作,完整实例内容会在下一篇文章进行讲解。一、前言有读者反映,说我上篇文章机器学习实战教程(一):k-近邻算法(史诗级干货长文),太长了。一看那么长,读的欲望都降低了。既然如此,决策树的内容,我就分开讲好了。本篇讨论决策树的原理和决策树构建的准备工作,完整实例内容会在下一篇文章进行讲解。本文出现的所有代码,均可在我的github上下载,欢迎Follow、S...转载 2018-05-29 10:33:29 · 680 阅读 · 0 评论 -
机器学习实战教程(2):K-近邻算法(史诗级干货长文)
摘要本文将从k-近邻算法的思想开始讲起,使用python3一步一步编写代码进行实战训练。并且,我也提供了相应的数据集,对代码进行了详细的注释。除此之外,本文也对sklearn实现k-近邻算法的方法进行了讲解。实战实例:电影类别分类、约会网站配对效果判定、手写数字识别。一、简单k-近邻算法本文将从k-近邻算法的思想开始讲起,使用python3一步一步编写代码进行实战训练。并且,我也提供了相应的数据集...转载 2018-05-23 18:04:40 · 323 阅读 · 0 评论