CSDN_Arice-CSDN博客

原创使用Anaconda创建虚拟环境并将其添加到jupyter中

使用Anaconda创建虚拟环境并将其添加到jupyter中

2026-03-18 22:25:42 58

原创特征工程中的数据标准化

数据标准化数据标准化主要用来消除不同特征之间的量纲的影响，量纲指的是特征的计量单位，如果特征的单位不一致，那么不同的特征不能放在一起去比较。例如在日常生活中，身高的单位时cm，体重的单位时kg，二者不能直接比较。所以可以通过数据标准化的方法，来消除不同特征之间量纲的影响。Min-Max 标准化...

2022-04-06 16:28:47 3251 1

层次聚类算法层次聚类算法又称为树聚类算法，它根据数据之间的距离，通过一种层次架构方式，反复将数据进行聚合，创建一个层次以分解给定的数据集。在sklearn模块中，使用AgglomerativeClustering 函数进行层次聚类。常用参数如下：sklearn.cluster.AgglomerativeClustering(n_clusters = 2)参数说明n_clusters分组个数，默认分为两组基于运营商基站信息挖掘商圈案例部分数据如下：现在需要对这份数据进

2022-04-06 10:49:17 6321

原创降维中的主成分分析(PCA）

降维在建模过程中，如果特征矩阵的维度过大，计算量也相应会很大，这有可能导致训练时间过长，降维的目的就是在尽量不影响模型效果的前提下，压缩特征的维度，从而解决模型训练时间过长的问题。目前主要的降维算法是主成分分析(PCA)和因子分析(FA)主成分分析世上的大多数事物都有非常多的特征，我们在评价某种事物的时候，仅依据某一特征进行评价，难免有失偏颇，主成分分析，就是一种从所有样本中选出综合实力最强样本的分析方法。示例数据：如何判断哪部电影是最优的呢？使用哪个指标呢?无论使用哪个，都有失偏颇，这时就可

2022-04-01 10:07:47 2086

原创特征工程中缺失值处理

缺失值处理信息系统往往是不完备的，经常会有数据缺失。产生数据缺失一般有两种原因，第一种是有些信息暂时无法获取，例如一个单身人士的配偶或者一个儿童的收入等；第二种是有些信息被遗漏或者错误的被处理了。数据缺失是不可避免的，我们经常要做缺失数据的处理，处理缺失数据通常有三种方法：1、第一种是不处理，例如单身人士的配偶，不存在是很正常的。2、第二种是删除缺失值所对应的行，这种方法在样本数据较少时，谨慎使用。3、第三种是数据补齐，使用规则或模型，对缺失的数据进行补齐。下面使用代码一一实现这三种方法：示例

2022-03-30 09:36:13 3258

原创决策树中使用网格搜索寻找最优参数

决策树决策树是一个树结构（二叉树或非二叉树），其每个非叶节点表示一个特征上的测试，每个分支代表这个特征在某个值域上的输出，每个叶节点存放一个类别。使用决策树进行决策的过程就是从损节点开始，观试待分类项中相应的特征，并按照其值选择输出分支，直到到达叶子节点，然后将叶子节点存放的类别作为决策结果。决策树模型通过对训练样本的学习，建立分类规则，然后依据分类规则，对新样本数据进行分类预测。决策树是最经常使用的数据挖掘算法，它主要的优点有;1.易于理解和实现。不需要使用者了解很多的背景知识，其通过决策树就能够直

2022-03-25 10:36:35 9970 2

原创伯努利贝叶斯分类算法

贝叶斯分类的核心概念：我们对某件事情的判断首先有一个概率，这个概率称为先验概率。先验概率时根据经验总结出来的概率值，如果首先没有经验，那么可以将先验概率设置为50%，随着后面事情的发展，再调整先验概率，得到调整后的概率,这个调整后的概率称为后验概率，使用调整后的后验概率来替换先验祸率，则是对这件事情的新认知，这就是贝叶斯分类的基本思想。贝叶斯分类是一类分类算法的总称，它包括了高斯贝叶斯分类算法、伯努利贝叶斯分类算法以及多项式贝叶新分类算法。这类算法以贝叶斯定理为基础，故统称为贝叶斯分类。下面介绍伯努利

2022-03-21 20:14:54 4598

原创 KNN算法参数选择

KNN原理：K最近邻算法(K-Nearest Neighbor)，它判断未知类别数据的方法，是根据未知数据最近的K条记录，统计他们的分类，来确定未知类别数据的分类。如下图所示，正方形和三角形代表两种不同的分类，圆点代表的是未知分类的点。KNN算法首先会确定一个K值，假设K = 3 ，那么根据其他点与圆点的距离，找出最接近圆点的三个点，三点中，两个属于三角形，一个属于正方形，根据这一结果，KNN算法认为，圆点数以三角形点的分类。在KNN算法中，参数K的设置会影响模型的效果，K值设置不同，分类结果也会

2022-03-19 21:34:52 5153

原创分类模型评估指标

分类模型评估指标：混淆矩阵：混淆矩阵是一种用来呈现算法性能的矩阵，它的每一行代表真实的分类，每一列代表预测的分类。True Positive（TP）：真正类。False Negative（FN）：假负类。False Positive（FP）：假正类。True Negative（TN）：真负类。准确率(Accuracy)：准确率是指模型正确地预测样本的比例：Accuracy=TP+TNTP+FN+FP+TNAccuracy = \frac{TP+TN}{TP+FN+FP+TN}Accura

2022-03-19 15:09:31 4043

原创一元非线性回归方程（matplotlib)

一元非线性回归模型通用表达式：y=anxn+an−1xn−1+......+a0x0y = a_nx^n + a_{n-1}x^{n-1}+......+a_0x^0y=anxn+an−1xn−1+......+a0x0但是一般不直接求解一元非线性方程，而是将其转化为多重线性方程来求解,好处在于可以把复杂的一元非线性方程变为简单的多线性方程。例如：假设要拟合的方程为：y=a2x2+a1x1+a0x0y = a_2x^2 + a_1x^1 + a_0x^0y=a2x2+a1x1+a0x0

2022-03-18 15:45:29 4925

原创使用最小二乘法求解回归方程并用matplotlib画出回归方程

前言最小二乘法Least Square Method，做为分类回归算法的基础，有着悠久的历史（由马里·勒让德于1806年提出）。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。导入包import pandas as pd import matplotlib.pyplot as plt import numpy as

2022-03-17 20:05:24 1359