机器学习专题_星尘 StarDust的博客-CSDN博客

机器学习专题

关注

机器学习正是这样一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。如果说计算机科学是研究关于“算法”的学问，那么类似的，可以说机器学习是研究关于“学习算法”的学问。

关注数：文章数：8 文章阅读量：35907 文章收藏量：358

作者: 星尘 StarDust

Datawhale团队成员，开源贡献者，一个不断寻找自我的追光者。

展开

K-近邻算法全面解析

1 K-近邻算法简介K-近邻(K-Nearest Neighbor，KNN)，采用的是测量不同特征值之间距离的方法进行分类。对当前待分类样本的分类，需要大量已知分类的样本的支持，因此KNN是一种有监督学习算法。2 K-近邻算法的三要素距离度量、K值的选择、分类决策规则2.1 样本间距离的计算方法：既然要找到待分类样本在当前样本数据集中与自己距离最近的K个邻居，必然就要确定样本间的距离计算方法。样本间距离的计算方法的构建，与样本的向量表示方法有关，当建立样本的向量表示方法时，必须考虑其是否便于样

原创 2020-11-24 15:52:21 · 6217 阅读 · 7 评论
使用Sklearn的SVM接口实现鸢尾花分类

Iris Data SetIris Data Set（鸢尾属植物数据集）是历史比较悠久的数据集，它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中，被用来介绍线性判别式分析。在这个数据集中，包括了三类不同的鸢尾属植物：Iris Setosa，Iris...

原创 2020-04-21 22:23:38 · 2541 阅读 · 0 评论
Sklearn的决策树算法实现鸢尾花分类

Iris Data SetIris Data Set（鸢尾属植物数据集）是历史比较悠久的数据集，它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中，被用来介绍线性判别式分析。在这个数据集中，包括了三类不同的鸢尾属植物：Iris Setosa，Iris...

原创 2020-04-11 23:23:02 · 3448 阅读 · 0 评论
决策树中的ID3、C4.5和CART算法的对比分析

ID3算法（Iterative Dichotmizer 3）1、特征选择准则：信息增益2、特征必须离散化，不能处理连续值3、偏向于选择取值多的属性4、是一个多叉树模型信息熵：度量样本集合纯度最常用的一种指标，定义如下Ent⁡(D)=−∑k=1∣Y∣pklog⁡2pk\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k}...

原创 2020-04-07 22:52:23 · 1045 阅读 · 2 评论
编程手记--逻辑回归实现MNIST数据集分类

1 MNIST手写数据集经典的MNIST数据集包含了大量的手写数字。十几年来，来自机器学习、机器视觉、人工智能、深度学习领域的研究员们把这个数据集作为衡量算法的基准之一。你会在很多的会议，期刊的论文中发现这个数据集的身影。实际上，MNIST数据集已经成为算法作者的必测的数据集之一。有人曾调侃道：“如果一个算法在MNIST上不work, 那么它就根本没法用；而如果它在MNIST上work, 它在其...

原创 2020-04-01 18:11:05 · 2000 阅读 · 0 评论
Sklearn笔记--逻辑回归调参指南

1、逻辑回归 (Logistic Regression，LR)概述在scikit-learn中，与逻辑回归有关的主要有3个类。LogisticRegression， LogisticRegressionCV 和Logistic_regression_path。其中LogisticRegression和LogisticRegressionCV的主要区别是LogisticRegressionCV使用...

原创 2020-04-01 01:36:13 · 18915 阅读 · 2 评论
干货 | 通俗易懂的极大似然估计

源于频率主义学派的极大似然估计（Maximum Likelihood Estimation,简称MLE），是根据数据采样来估计概率分布参数的经典方法，在机器学习的对数几率回归、贝叶斯分类器等中有广泛的应用。1 极大似然估计法设总体的概率密度函数（或分布律）为f(y,w1,w2,…,wk),y1,y2,…,ymf\left(y, w_{1}, w_{2}, \ldots, w_{k}\righ...

原创 2020-03-30 23:06:55 · 962 阅读 · 2 评论
一文看懂L1、L2正则化的区别

正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。我们在构造机器学习模型时，最终目的是让模型在面对新数据的时候，可以有很好的表现。当你用比较复杂的模型比如神经网络，去拟合数据时，很容易出现过拟合现象(训练集表现很好，测试集表现较差)，这会导致模型的泛化能力下降，这时候，我们就需要使用正则化，降低模型的复杂度。1 向量范数对于向量x=[x1,x2,…,xm]x=\left[x_{1},...

原创 2020-03-30 15:55:15 · 780 阅读 · 2 评论

机器学习专题

作者: 星尘 StarDust

K-近邻算法全面解析

使用Sklearn的SVM接口实现鸢尾花分类

Sklearn的决策树算法实现鸢尾花分类

决策树中的ID3、C4.5和CART算法的对比分析

编程手记--逻辑回归实现MNIST数据集分类

Sklearn笔记--逻辑回归调参指南

干货 | 通俗易懂的极大似然估计

一文看懂L1、L2正则化的区别