功夫大笨鲨-CSDN博客

原创聚类算法用于降维，KMeans的矢量量化应用

文章目录前言案例：聚类算法用于降维，KMeans的矢量量化应用1. 导入需要的库2.导入数据，探索数据（里面的内容是探索图像数据的一个固定的流程）3. 决定超参数，数据预处理4. 对数据进行K-Means的矢量量化5. 对数据进行随机的矢量量化6. 将原图，按KMeans矢量量化和随机矢量量化的图像绘制出来总结前言在本案例中添加了不适用KMeans来进行矢量量化，随机抽取64个当作质心，与使用KMeans矢量量化做出了对比案例：聚类算法用于降维，KMeans的矢量量化应用K-Means聚类最重.

2021-11-21 16:23:15 2625

原创 KMeans参数，属性，接口列表

文章目录一、KMeans参数列表二、KMeans属性列表三、KMeans接口列表一、KMeans参数列表二、KMeans属性列表三、KMeans接口列表

2021-11-20 21:45:34 1041

原创聚类算法KMeans

文章目录前言一、KMeans1.1 KMeans是如何工作的1.2 簇内误差平方和1.3 KMeans算法的时间复杂度二、sklearn.cluster.KMeans总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。一、KMeansKMeans可以说是最简单的聚类算法没有之一1.1 KMeans是如何工作的关键概念：簇与质心KMeans算法将一组N个样本的特征矩阵.

2021-11-20 21:41:27 2540

原创反编译.class

首先下载JD-GUI：这是下载地址安装完成后使用dos命令，先进入下载后的目录d:/你的文件夹的名称java -jar jd-gui-1.6.6.jar就可以打开JD-GUI图形界面了然后点击打开之后就可以看到反编译后的代码了...

2021-11-19 22:21:32 357

原创聚类算法概述

文章目录前言一、无监督学习与聚类算法二、sklearn中的聚类算法总结前言开始学习聚类算法，在菜菜老师的课件基础上进行一些标注等一、无监督学习与聚类算法决策树，随机森林，逻辑回归，他们虽然有着不同的功能，但却都属于“有监督学习”的一部分，即是说，模型在训练的时候，即需要特征矩阵X，也需要真实标签y。机器学习当中，还有相当一部分算法属于“无监督学习”，无监督的算法在训练的时候只需要特征矩阵X，不需要标签。PCA降维算法就是无监督学习中的一种，聚类算法，也是无监督学习的代表算法之一。聚类算法又.

2021-11-16 18:18:29 1385

原创逻辑回归制作评分卡

文章目录前言逻辑回归制作评分卡1. 导库，导入数据2. 探索数据和数据预处理2.1 去除重复值2.2 填补缺失值2.3 描述性统计处理异常值2.4 为什么不统一量纲，也不标准化数据分布？2.5 样本不均衡问题2.6 分训练集和测试集3. 分箱总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。逻辑回归制作评分卡而对于个人来说，有”四张卡“来评判个人的信用程度：A卡，B卡，C卡.

2021-11-15 21:44:36 2541

原创随机森林参数，属性，接口列表

文章目录前言一、随机森林参数列表二、随机森林属性列表三、随机森林属性列表前言引用菜菜老师的列表一、随机森林参数列表二、随机森林属性列表三、随机森林属性列表

2021-11-13 22:04:34 1030

原创分类树参数，属性，接口列表

文章目录前言一、分类树参数列表二、分类树属性列表三、分类树接口列表前言采用菜菜老师的列表一、分类树参数列表二、分类树属性列表三、分类树接口列表

2021-11-13 22:02:00 760

原创逻辑回归分类器(linear_model.LogisticRegression)

文章目录前言逻辑回归分类器(linear_model.LogisticRegression)1. 二元逻辑回归的损失函数2. 重要参数penalty & C2.1 正则化下面建立两个逻辑回归，来看一下L1正则化和L2正则化：1.导入库2. 导入数据3. 建立L1,L2两个正则化的实例化并训练4. 逻辑回归的重要属性coef_：查看每个特征所对应参数5. 使用学习曲线查看2.2 逻辑回归中的特征工程总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术.

2021-11-09 12:24:01 6079

原创逻辑回归参数，属性，接口列表

文章目录前言一、逻辑回归的参数列表二、逻辑回归的属性列表三、逻辑回归的接口列表前言引用菜菜老师的列表一、逻辑回归的参数列表二、逻辑回归的属性列表三、逻辑回归的接口列表...

2021-11-09 12:20:14 828

原创梯度向量的推导

梯度究竟如何定义呢？在多元函数上对各个自变量求∂偏导数，把求得的各个自变量的偏导数以向量的形式写出来，就是梯度。比如损失函数 J(θ1,θ2)J(\theta_1,\theta_2)J(θ1,θ2)，其自变量是逻辑回归预测函数 yθ(x)y_{\theta}(x)yθ(x)的参数θ1,θ2\theta_1,\theta_2θ1,θ2 ，在损失函数上对θ1,θ2\theta_1,\theta_2θ1,θ2求偏导数。那么梯度向量是如何推导的呢，首先要知道以下的先决条件：损失函数J(θ):J

2021-11-08 11:09:48 2277

原创二元逻辑回归损失函数的数学解释与公式推导

我们基于极大似然法来推导二元逻辑回归的损失函数，这个推导过程能够帮助我们了解损失函数怎么得来的，以及为什么J(θ)J(\theta)J(θ)的最小化能够实现模型在训练集上的拟合最好。我们的目标是：让模型对训练数据的效果好，追求损失最小二元逻辑回归的标签服从伯努利分布(即0-1分布)，因此我们可以将一个特征向量为 xxx，参数为θ\thetaθ的模型中的一个样本i的预测情况表现为如下形式：样本i在由特征向量 xix_ixi和参数 θ\thetaθ组成的预测函数中，样本标签被预测为1的概率为：P

2021-11-04 11:54:06 917

原创逻辑回归概述

文章目录前言一、逻辑回归——一个叫“回归”的分类器总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。一、逻辑回归——一个叫“回归”的分类器回归树，随机森林的回归，无一例外他们都是区别于分类算法们，用来处理和预测连续型标签的算法。然而逻辑回归，是一种名为“回归”的线性分类器，其本质是由线性回归变化而来的，一种广泛使用于分类问题中的广义回归算法。要理解逻辑回归从何而来，得要先理.

2021-11-03 13:06:46 442

原创 PCA参数，属性，接口列表

文章目录一、PCA参数列表二、PCA属性列表三、PCA接口列表一、PCA参数列表二、PCA属性列表三、PCA接口列表

2021-10-30 20:19:21 1046

原创案例：PCA对手写数字数据集的降维

文章目录前言PCA对手写数字数据集的降维1. 导入需要的模块和库2.导入数据，探索数据3.画累计方差贡献率曲线，找最佳降维后维度的范围4.降维后维度的学习曲线，继续缩小最佳维度的范围5. 细化学习曲线，找出降维后的最佳维度6. 导入找出的最佳维度进行降维，查看模型效果7.特征数量已经不足原来的3%，换模型怎么样？8. KNN的k值学习曲线9.定下超参数后，模型效果如何总结前言使用手写数字集来进行降维，进行对比PCA对手写数字数据集的降维在特征选择时用的此数据集，数据集结构为(42000, 78.

2021-10-30 20:12:38 2527

原创降维算法PCA和SVD

文章目录前言PCA和SVD1. 降维算法的实现1.1 降维的步骤表格2. PCA,SVD简单概述总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。PCA和SVD在降维过程中，我们会减少特征的数量，这意味着删除数据，数据量变少则表示模型可以获取的信息会变少，模型的表现可能会因此受影响。同时，在高维数据中，必然有一些特征是不带有有效的信息的（比如噪音），或者有一些特征带有的信息和.

2021-10-30 17:05:19 3547 3

原创样本方差公式为什么除以的是n-1

本文是依照《彻底理解样本方差为何除以n-1》一文进行学习而做的学习笔记，是在学习前面一文的基础上，对某些步骤添加了一些自己的理解，如果有什么不对的地方还请各位道友多多指正哈！当然以后要是突然明白真正的道理的话还是会继续改正的~~下面进入正文这位篇文章的博主其他文章也很好，需要的小伙伴要留意一下喔*想到这个问题的来源：在降维算法中，PCA使用的信息量衡量指标，就是样本方差，其公式如下Var=1n−1∑i=1n(xi−Xˉ)2Var=\frac{1}{n-1}\sum_{i=1}^{n} (x_i-

2021-10-27 15:39:42 19362 3

原创特征工程之特征选择

文章目录前言准备工作：数据的准备Filter过滤法1.1 方差过滤1.1.1 VarianceThreshold1.1.2 方差过滤对模型的影响1.1.3 为什么随机森林运行如此之快？为什么方差过滤对随机森林没很大的有影响?1.1.4 选取超参数threshold1.2 相关性过滤1.2.1 卡方过滤1.2.2 选取超参数K方法一：跑学习曲线方法二：看p值选择k（推荐，因为学习曲线运行时间长）和菜菜老师得出的结论的差异1.2.3 F检验1.2.4 互信息法总结前言要尽可能的对数据每一个特征进行了解，.

2021-10-25 20:07:43 679

原创数据预处理与特征工程概述

文章目录前言一、数据挖掘的五大流程1.获取数据2. 数据预处理3.特征工程4. 建模，测试模型并预测出结果5.上线，验证模型效果二、 sklearn中的数据预处理和特征工程总结前言加油，坚持住，跟着菜菜继续学一、数据挖掘的五大流程1.获取数据2. 数据预处理数据预处理是从数据中检测，纠正或删除损坏，不准确或不适用于模型的记录的过程可能面对的问题有：数据类型不同，比如有的是文字，有的是数字，有的含时间序列，有的连续，有的间断。也可能，数据的质量不行，有噪声，有异常，有缺失，数据出错，量纲不.

2021-10-24 22:30:16 196

原创数据预处理

文章目录前言一、数据无量纲化1.1 数据归一化1.1.1 不加feature_range，默认是[0,1]1.1.2 使用MinMaxScaler的参数feature_range实现将数据归一化到[0,1]以外的范围中1.1.3 使用numpy来实现归一化1.2 数据标准化1.3 StandardScaler和MinMaxScaler选哪个？二、缺失值处理2.1我们使用impute.SimpleImputer来实现这个功能2.2 也可用Pandas和Numpy进行填补，其实更加简单，随便用哪个三、处理分类.

2021-10-24 21:41:41 255

原创随机森林在乳腺癌数据上的调参

文章目录前言乳腺癌数据调参1. 导入库2. 导入数据并探索3. 简单建模，看模型本身在数据集上的效果4. 随机森林调整的第一步：无论如何先来调n_estimators5. 在确定好的范围内，进一步细化学习曲线注意6. 使用网格搜索和学习曲线的大概判断方法7. 开始按照参数对模型整体准确率的影响程度进行调参，首先调整max_depth8.调整max_features注意9. 调整min_samples_leaf10.继续尝试min_samples_split11. 最后尝试一下criterion12.调整.

2021-10-23 15:46:03 627

原创机器学习中调参的基本思想

文章目录前言一、泛化误差二、偏差vs方差总结前言模型调参，第一步是要找准目标：我们要做什么？一般来说，这个目标是提升某个模型评估指标，比如对于随机森林来说，我们想要提升的是模型在未知数据上的准确率（由score或oob_score_来衡量）。找准了这个目标，我们就需要思考：模型在未知数据上的准确率受什么因素影响？。一、泛化误差在机器学习中，我们用来衡量模型在未知数据上的准确率的指标，叫做泛化误差（Genelization error）当模型在未知数据（测试集或者袋外数据）上表现糟糕时，我们.

2021-10-22 16:13:44 254

原创实验5_熟悉数据可视化工具的使用方法

一、实验目的通过本次实验掌握数据获取、数据清洗与存储和数据可视化工具的基本使用方法。二、实验平台三、实验内容和要求新冠疫情数据获取考核要点：尽可能全面的获取疫情数据，包括国内、国外的疫情历史数据，越新越好，而且疫苗接种数量等信息也尽量获取。老师会根据数据的全面程度给定分数。推荐采用爬虫方式获取数据，如果有困难的话，可以采用网上别人整理好的数据。关于数据源，可以从世界卫生组织、丁香园、腾讯新闻等渠道获取，网上有很多资料可以参考。新冠疫情数据清洗与存储考核要点：要对获取的疫情相关数据

2021-10-20 19:59:13 267

原创 Pycharm连接sqllite

文章目录前言1. Pycharm显示database按钮2. 创建sqllite3. 如果未安装驱动先安装驱动4.测试sqllite连接是否成功5. 安装成功6. sqllite连接使用前言SQLite是一个进程内的库，实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。它是一个零配置的数据库，这意味着与其他数据库不一样，不需要在系统中配置。1. Pycharm显示database按钮2. 创建sqllite3. 如果未安装驱动先安装驱动4.测试sqllite连接是.

2021-10-20 19:17:06 2250 1

原创随机森林案例：回归森林填补缺失值

文章目录前言使用随机森林回归填补缺失值1.导入库2. 以波士顿数据集为例，导入完整的数据集并探索3.为完整数据集放入缺失值4. 使用0和均值来进行填补5. 使用随机森林填补缺失值6. 对填补好的数据进行建模及评分7. 用所得结果画出条形图总结前言我们从现实中收集的数据，几乎不可能是完美无缺的，往往都会有一些缺失值。面对缺失值，很多人选择的方式是直接将含有缺失值的样本删除，这是一种有效的方法，但是有时候填补缺失值会比直接丢弃样本效果更好，即便我们其实并不知道缺失值的真实样貌。在sklearn中，我们.

2021-10-20 17:07:37 1197 1

原创随机森林回归器

文章目录前言一、重要参数criterion二、重要属性和接口三、随机森林回归用法总结前言所有的参数，属性与接口，全部和随机森林分类器一致。仅有的不同就是回归树与分类树的不同，不纯度的指标，参数Criterion不一致。一、重要参数criterion回归树衡量分支质量的指标，支持标准有三种：输入"mse"使用均方误差mean squared error(MSE)，父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失输入“fr.

2021-10-19 11:02:12 1645

原创随机森林分类器

文章目录前言一、重要参数1.1 控制基评估器的参数1.2 n_esitmators1.2.1 建立森林1.3 random_state1.4 重要属性之一：estimators，查看森林中树的情况1.5 bootstrap & oob_score1.6 重要属性之一：使用oob_score_来查看模型在袋外数据上的测试结果二、重要属性和接口三、Bagging（装袋法）的另一个必要条件总结前言随机森林是非常具有代表性的Bagging（装袋法）集成算法，它的所有基评估器都是决策树，分类树组成的.

2021-10-18 21:16:00 4670

转载随机森林概述

文章目录前言集成算法1. 集成算法概述2.sklearn中的集成算法总结前言在决策树的基础上来学习随机森林集成算法1. 集成算法概述集成学习（ensemble learning）是时下非常流行的机器学习算法，它本身不是一个单独的机器学习算法，而是通过在数据上构建多个模型，集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影，在现实中集成学习也有相当大的作用，它可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞.

2021-10-17 19:07:54 139

原创泰坦尼克号幸存者预测（分类）

文章目录前言步骤1. 导入库2. 使用pandas来读取csv文件3. 对csv文件的信息进行探索4. 数据的预处理4.1 将对训练模型无关的特征进行删除4.2 将所有非数字类型的特征转为数字类型的特征4.3 统一数据的数量5. 对数据集进行拆分，将数据特征和标签进行分离（survived结果和其余的数据进行分离）6. 对数据集进行训练集和测试集的划分7. 对划分的测试集和训练集进行排序（养成习惯）8. 对模型进行训练9. 通过网格搜索来调整最优参数注意前言提示：这里可以添加本文要记录的大概内容：.

2021-10-15 21:22:18 1290

空空如也

空空如也