hitsugaya837-CSDN博客

原创 sklearn学习07——可视化

sklearn学习07——可视化前言一、一些常用数据集1.1、手写数据集1.2、肿瘤数据集1.3、波斯顿房价数据集二、性能可视化2.1、交叉验证绘制2.2、重要性特征绘制三、机器学习度量3.1、混淆矩阵（Confusion Matrix）3.2、ROC、AUC曲线3.3、P-R曲线3.4、轮廓分析3.5、可靠性曲线（Calibration Curve , Reliability Curves）3.6、KS检验3.7、累计收益曲线3.8、Lift曲线四、聚类方法4.1、手肘法（Elbow Method）五、降

2022-01-05 20:24:41 4329

原创 sklearn学习07——集成学习

sklearn学习07——集成学习前言一、集成学习1.1、什么是集成学习？1.2、Boosting 算法二、AdaBoost算法及实现2.1、AdaBoost算法2.2、调sklearn库实现Adaboost算法总结前言集成学习是目前各类竞赛（比如Kaggle，天池等）和工程中应用最广泛的模型提升方法。它确实也取得了不错的效果，在保证准确度的同时也提升了模型防止过拟合的能力。下面我们通过这篇文章了解一下集成学习的原理、具体有哪些方法、以及对其中一种方法 AdaBoost 的展开，同样，使用sklea

2022-01-02 23:12:25 1222

原创 sklearn学习06——PCA

sklearn学习06——PCA前言一、PCA的核心思想1.1、PCA的原理1.2、PCA的大致流程1.3、样本信息量的衡量二、sklearn实现PCA过程2.1、引入相关库2.2、利用PCA降维2.3、不同主成分个数对应的可解释方差分析(Explained Variance)总结前言主成分分析（principal component analysis）是一种常见的数据降维方法，其目的是在“信息”损失较小的前提下，将高维的数据转换到低维，从而减小计算量。本篇简单介绍PCA的思想，然后继续使用skle

2021-12-30 19:28:55 6802

原创 sklearn学习05——K-means

sklearn学习05——K-means前言一、K-means算法思想二、代码实现 K-means算法2.1、引入相关库2.2、生成数据集2.3、训练 + 预测2.3、惯性指标（inertia）总结前言面对无标签的数据集，我们期望从数据中找出一定的规律。一种最简单也最快速的聚类算法应运而生——K-Means。因为数据集无标签，所以它是无监督学习，下面介绍K-means算法思想，然后再调用sklearn相关库代码实现一下。一、K-means算法思想其核心思想比较简单，四个字概括的话就是：物以类

2021-12-27 20:04:49 1206

原创 sklearn学习04——DecisionTree

sklearn学习04——DecisionTree前言一、决策树原理1.1、算法基本流程1.2、最优划分属性的选择二、sklearn代码实践2.1、引入库2.2、查看数据集信息2.3、使用可视化类直观分析各个特征与品种的关系总结前言本篇简单回顾一下决策树原理，然后采用sklearn的鸢尾花数据集实现决策树模型的训练和预测。一、决策树原理这里只说明决策树的基本算法流程和最优划分属性的选择（核心思想），具体细节可以参考我的另一篇文章：机器学习第四章—决策树1.1、算法基本流程显然，决策树的

2021-12-24 22:57:57 1254

原创 sklearn学习03——Bayes

sklearn学习笔记——task03前言一、朴素贝叶斯1.1、贝叶斯分类器的理论框架1.2、朴素贝叶斯分类器1.3、朴素贝叶斯的代码实现总结前言本篇首先介绍朴素贝叶斯分类器的原理（参考西瓜书），最后使用 sklearn 简单实现它。一、朴素贝叶斯1.1、贝叶斯分类器的理论框架贝叶斯分类器的理论框架基于贝叶斯决策论（Bayesian decision theory），而贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些

2021-12-21 19:53:30 836

原创 sklearn学习02——SVM

sklearn学习笔记——task02前言一、线性SVM1.1、算法原理1.2、代码实现二、核函数和非线性SVM2.1、从线性可分到线性不可分2.2、核函数2.2.1、多项式核函数2.2.2、高斯核函数2.3、测试不同SVM在Mnist数据集上的分类情况前言本篇给出sklearn中 SVM（支持向量机）的一些常用模型的实现，线性分类问题一般可用线性SVM模型来解决；非线性分类问题可以使用多项式SVM、高斯核SVM这两种模型解决。一、线性SVM1.1、算法原理回顾一下线性SVM的分类思想：

2021-12-18 17:10:15 3555

原创 sklearn学习01——LinearRegression / LogisticRegression

sklearn学习笔记——task01前言一、一/多元线性回归1.1、数据生成1.2、得到模型1.3、模型测试和比较1.4、多元线性回归1.5、训练一元线性模型常用方法——梯度下降法二、多项式线性回归三、逻辑（Logistic）回归3.1、损失函数3.2、梯度下降法3.3、代码实现总结前言在学习了机器学习（周志华）的一系列的模型和学习算法之后，我们也需要使用python实际操作，实现它的效果，进而深入理解这些模型的原理。本篇讲解几种线性回归的sklearn实现。一、一/多元线性回归1.

2021-12-15 21:04:29 3235

原创西瓜书第六章——支持向量机

西瓜书第六章——支持向量机前言一、间隔与支持向量1.1、算法原理1.2、超平面1.3、几何间隔1.4、支持向量机1.4.1、模型1.4.2、策略二、对偶问题2.1、凸优化问题2.2、拉格朗日对偶问题2.3、拉格朗日对偶代入主问题三、软间隔与支持向量回归3.1、软间隔3.2、支持向量回归总结前言假设这里有一个包含两类的样本数据集 D（该数据集是线性可分的），那么这种简单的二分类问题，我们最基本的的思想就是找一个超平面将数据集划分好，即如上图所示；但是会有多个可行的超平面，我们应该选哪一个呢？这就是支

2021-12-02 21:28:33 1718

原创西瓜书第五章——神经网络

西瓜书第五章——神经网络前言一、感知机1.1、感知机模型1.1.1、M-P神经元模型1.1.2、神经元激活函数1.1.3、感知机模型1.2、感知机策略1.3、感知机学习算法二、神经网络（NN，neural network）2.1、误差逆传播算法（BP算法）2.2、BP算法的工作流程2.3、局部最小问题总结前言一种非常广泛使用的神经网络定义：神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界体所作出的交互反应。本章以机器学习三要素（模型、策略、算法）的角度介

2021-11-28 11:22:44 1172

原创西瓜书第四章——决策树

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档西瓜书第四章——决策树前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1

2021-11-25 20:31:25 1368

原创西瓜书第三章——线性模型

西瓜书学习笔记——第三章前言一、一元线性回归0、一些基本概念1、算法原理2、线性回归的最小二乘估计和极大似然估计2.1、最小二乘法2.2、极大似然估计法3、求解ω和b3.1、凸函数3.2、海塞矩阵及其半正定性3.3、海塞矩阵的半正定性证明3.4、向量化成矩阵简化python编写4、机器学习三要素二、多元线性回归1、多元线性模型2、最小二乘法估计以及向量化3、求解ω ̂ 和矩阵求偏导的一些公式3.1、海塞矩阵的正定性3.2、矩阵求偏导简单了解及相关公式三、对数几率回归1、算法原理2、极大似然估计角度推导损失函

2021-11-22 11:08:08 1743 1