![](https://img-blog.csdnimg.cn/20200330154637341.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习专题
机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问。
星尘 StarDust
Datawhale团队成员,开源贡献者,一个不断寻找自我的追光者。
展开
-
K-近邻算法全面解析
1 K-近邻算法简介K-近邻(K-Nearest Neighbor,KNN),采用的是测量不同特征值之间距离的方法进行分类。对当前待分类样本的分类,需要大量已知分类的样本的支持,因此KNN是一种有监督学习算法。2 K-近邻算法的三要素距离度量、K值的选择、分类决策规则2.1 样本间距离的计算方法:既然要找到待分类样本在当前样本数据集中与自己距离最近的K个邻居,必然就要确定样本间的距离计算方法。样本间距离的计算方法的构建,与样本的向量表示方法有关,当建立样本的向量表示方法时,必须考虑其是否便于样原创 2020-11-24 15:52:21 · 6217 阅读 · 7 评论 -
使用Sklearn的SVM接口实现鸢尾花分类
Iris Data SetIris Data Set(鸢尾属植物数据集)是历史比较悠久的数据集,它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中,被用来介绍线性判别式分析。在这个数据集中,包括了三类不同的鸢尾属植物:Iris Setosa,Iris...原创 2020-04-21 22:23:38 · 2541 阅读 · 0 评论 -
Sklearn的决策树算法实现鸢尾花分类
Iris Data SetIris Data Set(鸢尾属植物数据集)是历史比较悠久的数据集,它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中,被用来介绍线性判别式分析。在这个数据集中,包括了三类不同的鸢尾属植物:Iris Setosa,Iris...原创 2020-04-11 23:23:02 · 3448 阅读 · 0 评论 -
决策树中的ID3、C4.5和CART算法的对比分析
ID3算法(Iterative Dichotmizer 3)1、 特征选择准则:信息增益2、 特征必须离散化,不能处理连续值3、 偏向于选择取值多的属性4、是一个多叉树模型信息熵: 度量样本集合纯度最常用的一种指标,定义如下Ent(D)=−∑k=1∣Y∣pklog2pk\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k}...原创 2020-04-07 22:52:23 · 1045 阅读 · 2 评论 -
编程手记--逻辑回归实现MNIST数据集分类
1 MNIST手写数据集经典的MNIST数据集包含了大量的手写数字。十几年来,来自机器学习、机器视觉、人工智能、深度学习领域的研究员们把这个数据集作为衡量算法的基准之一。你会在很多的会议,期刊的论文中发现这个数据集的身影。实际上,MNIST数据集已经成为算法作者的必测的数据集之一。有人曾调侃道:“如果一个算法在MNIST上不work, 那么它就根本没法用;而如果它在MNIST上work, 它在其...原创 2020-04-01 18:11:05 · 2000 阅读 · 0 评论 -
Sklearn笔记--逻辑回归调参指南
1、逻辑回归 (Logistic Regression,LR)概述在scikit-learn中,与逻辑回归有关的主要有3个类。LogisticRegression, LogisticRegressionCV 和Logistic_regression_path。其中LogisticRegression和LogisticRegressionCV的主要区别是LogisticRegressionCV使用...原创 2020-04-01 01:36:13 · 18915 阅读 · 2 评论 -
干货 | 通俗易懂的极大似然估计
源于频率主义学派的极大似然估计(Maximum Likelihood Estimation,简称MLE),是根据数据采样来估计概率分布参数的经典方法,在机器学习的对数几率回归、贝叶斯分类器等中有广泛的应用。1 极大似然估计法设总体的概率密度函数(或分布律)为f(y,w1,w2,…,wk),y1,y2,…,ymf\left(y, w_{1}, w_{2}, \ldots, w_{k}\righ...原创 2020-03-30 23:06:55 · 962 阅读 · 2 评论 -
一文看懂L1、L2正则化的区别
正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。我们在构造机器学习模型时,最终目的是让模型在面对新数据的时候,可以有很好的表现。当你用比较复杂的模型比如神经网络,去拟合数据时,很容易出现过拟合现象(训练集表现很好,测试集表现较差),这会导致模型的泛化能力下降,这时候,我们就需要使用正则化,降低模型的复杂度。1 向量范数对于向量x=[x1,x2,…,xm]x=\left[x_{1},...原创 2020-03-30 15:55:15 · 780 阅读 · 2 评论