![](https://img-blog.csdnimg.cn/84dd2e2a9e33493b9cb483e1ae0881be.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
ML机器学习
文章平均质量分 79
机器学习 Machine Learning
ez_scope
方便自查的个人学习笔记
展开
-
SHAP - 解释机器学习
一、关于 SHAP二、安装三、树集成示例(XGBoost/LightGBM/CatBoost/scikit-learn/pyspark 模型)四、自然语言示例(transformers)五、使用 DeepExplainer 的深度学习示例(TensorFlow/Keras 模型)六、使用 GradientExplainer 的深度学习示例(TensorFlow/Keras/PyTorch 模型)七、使用 KernelExplainer 的模型不可知示例(解释任何函数)八、SHAP 交互值九、原创 2024-05-15 16:10:33 · 1415 阅读 · 1 评论 -
OpenFST、WFST 小记
OpenFST、WFST 小记原创 2023-02-08 20:37:29 · 825 阅读 · 0 评论 -
Sklearn - 聚类
使用 K-Means 聚类算法加速 K-Means 聚类 MiniBatchKMeans使用 Meanshift 聚类算法使用 DBSCAN 聚类算法使用层次合并聚类算法 AgglomerativeClustering转载 2023-04-01 23:04:56 · 175 阅读 · 0 评论 -
MediaPipe - 小记
MediaPipe Studio : 提供标准化 task,你可以下载预训练模型来使用。MediaPipe Model Maker : 定制模型(使用你自己的数据集)MediaPipe : 设备端机器学习框架。伊织 2023-11-30(四)原创 2023-11-30 12:44:54 · 280 阅读 · 0 评论 -
Sklearn - 线性回归
拟合一条直线处理特征之间的影响拟合非线性关系通过正则化减少方差使用套索回归 减少特征转载 2023-04-02 17:03:05 · 122 阅读 · 0 评论 -
Sklearn - 模型评估
交叉验证模型创建一个基准回归模型创建一个基准分类模型评估二元分类器评估二元分类器的阈值评估多元分类器分类器性能的可视化评估回归模型评估聚类模型创建自定义评估指标转载 2023-03-25 23:55:49 · 375 阅读 · 0 评论 -
Sklearn - 逻辑回归
训练二元分类器训练多元分类器 multi_class='ovr'通过正则化 来减小方差 LogisticRegressionCV在超大数据集上训练分类器 solver='sag'处理不均衡的分类 class_weight='balanced'转载 2023-04-01 23:22:57 · 70 阅读 · 0 评论 -
Sklearn - 朴素贝叶斯
1、为连续数据 训练分类器2、为离散数据和计数数据 训练分类器3、为具有二元特征的数据,训练朴素贝叶斯分类器4、校准预测概率原创 2023-03-29 22:51:04 · 154 阅读 · 0 评论 -
Sklearn - SVM 支持向量机
一、训练一个线性分类器二、使用核函数处理线性不可分的数据三、计算预测分类的概率四、识别支持向量五、处理不均衡的分类转载 2023-03-28 22:28:43 · 163 阅读 · 0 评论 -
Sklearn - 特征降维
Matrix DecompositionFeature Selection一、利用特征提取进行特征降维 decomposition1、PCA 主成分2、对线性不可分数据进行特征降维核机制3、通过最大化类间可分性进行特征降维4、使用矩阵分解进行特征降维5、对稀疏矩阵进行特征降维二、使用特征选择 进行降维 feature_selection1、数值型特征方差的阈值化2、二值特征的方差阈值化3、处理高度相关性的特征4、删除与分类任务不相关的特征1)分类类型2)数值型特征3)Sele转载 2023-03-25 19:48:53 · 522 阅读 · 0 评论 -
Sklearn - 决策树和随机森林
决策树回归模型决策树分类器可视化随机森林分类器特征重要性选择随机森林中的重要特征处理不均衡的分类控制决策树的规模通过 boosting 提高性能使用袋外误差(Out-of-bag Error)评估随机森林模型转载 2023-03-22 23:38:07 · 540 阅读 · 0 评论 -
ML - KMeans聚类 digits 数据
【代码】KMeans聚类 digits 数据。原创 2023-02-27 21:25:41 · 157 阅读 · 0 评论 -
信用卡 线性模型/向前法
【代码】信用卡 线性模型/向前法原创 2023-02-27 21:21:10 · 201 阅读 · 0 评论 -
线性回归 - 波斯顿房价预测
项目说明Boston 数据集代码实现数据处理下载、查看数据切分数据标准化训练模型方式一:LinearRegression方式二:SGDRegressor原创 2023-02-25 10:13:17 · 2361 阅读 · 0 评论 -
ML - 集成学习 代码实现
文章目录什么是集成学习手动实现集成学习使用 Hard VotingClassifier使用 Soft Voting ClassifierBagging 和 Pastingoob并行化处理(n_jobs)随机采样 bootstrap_features随机森林Extra-Trees集成学习解决回归问题BoostingAdaBoostingGradient BoostingBoosting 解决回归问题什么是集成学习import numpy as npimport matplotlib.pyplot as原创 2022-01-02 22:13:00 · 736 阅读 · 0 评论 -
ML - SVM 解决回归问题
文章目录SVM 解决回归问题代码实现SVM 解决回归问题怎样定义拟合,是不同回归算法的关键。线性回归中,希望 MSE 最小。SVM 中指定margin值,期望 margin 范围中包含的数据越多越好。(和分类相反)引入超参数 ϵ\epsilonϵ代码实现LinearSVRimport numpy as npimport matplotlib.pyplot as plt from sklearn import datasetsboston = datasets.load_bos原创 2022-01-02 22:03:46 · 306 阅读 · 0 评论 -
ML - SVM 使用多项式特征
文章目录SVM中的使用多项式特征使用多项式特征的SVM使用多项式核函数的SVMSVM中的使用多项式特征import numpy as npimport matplotlib.pyplot as plt from sklearn import datasetsX, y = datasets.make_moons() X.shape# (100, 2) y.shape# (100,) plt.scatter(X[y==0,0], X[y==0,1])plt.scatter(X[原创 2022-01-02 22:02:57 · 180 阅读 · 0 评论 -
ML - 学习曲线(Learning Curve)
文章目录代码实现使用学习曲线函数提炼使用多项式回归的学习曲线20阶的学习学习曲线代码实现import numpy as npimport matplotlib.pyplot as pltnp.random.seed(666)x = np.random.uniform(-3.0, 3.0, size=100)X = x.reshape(-1, 1)y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, size=100)plt.scatter(x,原创 2022-01-02 21:38:35 · 802 阅读 · 0 评论 -
ML - 线性回归的评估(MSE、RMSE、MAE、R Square)
文章目录如何评估?MSERMSERMSE & MAER SquareR 方特性示例:预测boston 房价数据并评估读取、查看数据特征先做一个简单线性回归去除异常值训练数据预测并评估使用 sklearn.metrics 中的方法进行评估如何评估?简单线性回归 的 目标是找到 a 和 b 使得 ∑i=1m(ytrain(i)−axtrain(i)−b)2\sum^m_{i=1} (y_{train}^{(i)} - ax_{train}^{(i)} - b )^2∑i=1m(ytrain(i原创 2022-01-02 14:47:02 · 5977 阅读 · 0 评论 -
ML - 距离
文章目录一、曼哈顿距离 Manhattan Distance二、欧氏距离 Euclidean distance多维空间的欧氏距离三、明科夫斯基距离 Minkowski Distance五、切比雪夫距离 Chebyshev distance六、汉明距离 Hamming distance七、向量空间余弦相似度 Cosine Similarity一、曼哈顿距离 Manhattan Distance曼哈顿距离 Manhattan Distance又被称为出租车距离,是因为在像纽约曼哈顿区这样的地区,有很多由原创 2022-01-02 14:09:11 · 636 阅读 · 0 评论 -
ML - HMM 隐马尔科夫
文章目录马尔科夫模型隐马尔科夫隐马尔科夫模型的组成要解决的问题:暴力求解前向算法求解参数Baum-Welch 算法维特比算法HMM 代码维特比算法,看到的是[0,1,0]EM算法求解模型参数马尔科夫模型示例天气变化种类:晴天,多云,雷雨,状态之间可以发生转换,昨天和今天转换的情况今天能得到明天的情况,明天能得到后天的情况这里我们就定义好了一个一阶马尔科夫模型:状态:晴天,多云,雷雨状态转换概率:三种天气状态间的转换概率初始概率:晴天第n天的天气只和 第n-1天有关计算今天(t=1)原创 2022-01-02 22:22:13 · 1194 阅读 · 0 评论 -
ML - 多元线性回归
文章目录关于 多元线性回归求解算法封装使用 sklearn 处理 boston 房价回归问题使用 kNN 解决多元线性回归问题关于 多元线性回归简单线性回归:假设样本只有一个特征值;多元线性回归:解决 很多特征值 。y^(i)=θ0+θ1X1(i)+θ2X2(i)+...+θnXn(i) \hat{y}^{(i)} = \theta_{0} + \theta_{1}X_1^{(i)} + \theta_{2}X_2^{(i)} + ... + \theta_{n}X_n^{(i)} y^原创 2022-01-02 21:54:03 · 329 阅读 · 0 评论 -
ML - 数据归一化
文章目录一、关于归一化二、归一化方法1、最值归一化 normalization2、均值方差归一化 standardization三、Python 代码实现归一化处理矩阵均值方差归一化四、Sklearn 中的实现使用归一化后的数据来对 iris 进行 knn 分类其他数据集常见使用五、封装归一化类六、测试数据的归一化一、关于归一化数据归一化:将所有数据映射到等比例空间(同一个尺度中)。量纲:连续变量进行预处理,进行数据标准化,对于无序的分类变量,需要生成哑变量。为什么要归一化当使用 欧式距离 评原创 2022-01-02 11:52:52 · 251 阅读 · 0 评论 -
ML - 逻辑回归 代码实现
文章目录代码实现逻辑回归使用逻辑回归决策边界kNN的决策边界逻辑回归中添加多项式特征使用逻辑回归给逻辑回归添加多项式项更大的 degreescikit-learn中的逻辑回归OvR 和 OvO使用所有的数据代码实现逻辑回归import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsiris = datasets.load_iris() X = iris.datay = iris.target原创 2022-01-02 22:31:38 · 151 阅读 · 0 评论 -
ML - 分类算法的评价
文章目录分类准确度的问题混淆矩阵 Confusion Matrix精准率和召回率精准率召回率为什么好?F1 Score代码实现F1 的代码实现引入真实数据混淆矩阵,精准率、召回率的实现scikit-learn中的混淆矩阵,精准率、召回率、F1Precision-Recall 的平衡阈值对精准率和召回率的影响代码实现阈值的调整阈值使用 5阈值使用 -5阈值如何选取 -- PR 曲线Precision-Recall 曲线scikit-learn中的Precision-Recall曲线ROC 曲线TPR &原创 2022-01-02 21:49:54 · 175 阅读 · 0 评论 -
ML - ROC、AUC
文章目录一、ROC曲线二、auc 值一、ROC曲线受试者工作特征曲线ROC曲线的横坐标是假阳性率(FPR),纵坐标真阳性率(TPR)假阳性率:在所有实际为0的样本中,被错误的判定为1的比例真阳性率:在所有的实际为1的样本中,被正确判定为1的比例FPR=FPFP+TN=FPNFPR = \frac{FP}{FP + TN} = \frac{FP}{N} FPR=FP+TNFP=NFPFPR=TPTP+FN=TPTFPR = \frac{TP}{TP + FN} = \fra原创 2022-01-02 14:28:28 · 232 阅读 · 0 评论 -
ML - 网格搜索 Grid Search
Python 原生代码实现寻找最佳超参数使用 k 作为超参数超参数 添加距离 weights超参数 添加距离范式 p使用 sklearn 中的网格搜索提升效率关于距离原创 2022-01-02 22:33:11 · 804 阅读 · 0 评论 -
ML - 多项式回归
文章目录由来什么是多项式回归代码实现多项式回归创建数据使用线性回归拟合数据添加一个特征 x2x^2x2scikit-learn中的多项式回归和PipelinePolynomialFeatures 类的使用Pipeline非线性拟合的陷阱过拟合和欠拟合过拟合和欠拟合使用线性回归使用多项式回归train test split的意义为什么使用测试数据集过拟合train test split的意义如何判断?学习曲线由来线性回归的局限性:要求数据背后存在关系。但在实际情况下,很少有有强相关性的数据集。更多是具原创 2022-01-02 21:56:07 · 349 阅读 · 0 评论 -
决策树 代码实现
文章目录决策树的简单实现SKLearn 中的决策树树模型参数:代码信息熵二分类问题使用信息熵寻找最优划分使用基尼系数划分CART 和 决策树的超参数max_depthmin_samples_splitmin_samples_leafmax_leaf_nodes决策树解决回归问题Decision Tree Regressorcalifornia_housing 做决策树可视化 graphviz & pydotplus调整树模型参数决策树的简单实现import numpy as npimport原创 2022-01-02 22:08:35 · 2790 阅读 · 0 评论 -
ML - 基础数学
统计方差 & 标准差贝叶斯矩阵操作矩阵乘法点积原创 2021-11-19 08:10:38 · 100 阅读 · 0 评论 -
ML - 梯度下降
文章目录计算几种不同的梯度下降引入:当我们得到了一个目标函数后,如何进行求解?直接求解? (并不一 定可解,线性回归可以当做是一个特例)都是使用优化算法求解,如梯度下降算法。常规套路:机器学习的套路就是我交给机器一堆数据,然后告诉它什么样的学习方式是对的(目标函数),然后让它朝着这个方向去做如何优化:一口吃不成个胖子,我们要静悄悄的一 步步的完成迭代(每次优化一-点点, 累积起来就是个大成绩了)找到下山最快的方向,即 沿着切线方向沿着梯度往下走,所以叫做梯度下降找到下降的方向;沿原创 2022-01-02 22:25:24 · 99 阅读 · 0 评论 -
ML - PCA 主成分分析法
文章目录求解高维数据 的主成分代码封装主成分分析 Principal Component Analysis一个非监督的机器学习算法主要用于数据的降维通过降维,可以发现更便于人类理解的特征其他应用:可视化;去噪样本间距大,区分度就更佳明显问题:如何找到让样本间间距最大的轴?如何定义样本间距?---- 使用方差(Varience)方差表达式:Var(x)=1m∑i=1m(xi−x‾)2 Var(x) = \frac{1}{m} \sum^m_{i=1}(x_i - \overli原创 2022-01-02 22:17:07 · 589 阅读 · 0 评论 -
ML - SVM 在SKLearn 中的使用
文章目录scikit-learn中的SVMscikit-learn中的SVMimport numpy as npimport matplotlib.pyplot as plt from sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetX = X[y<2,:2]y = y[y<2] plt.scatter(X[y==0,0], X[y==0,1], color原创 2022-01-02 22:02:18 · 105 阅读 · 0 评论 -
ML - SVM 支持向量机
文章目录什么是 SVM不适定问题Hard & Soft Margin SVMHard Margin SVM 的数学思想及求解Soft Margin 和 SVM 的正则化核函数多项式核函数高斯核函数SVM 解决回归问题什么是 SVMSVM : Support Vector Machine既可以解决分类问题,也可以解决回归问题不适定问题逻辑回归是找到了决策便捷;问题:对于一些数据,决策边界并不唯一。这个问题也叫 不适定问题。逻辑回归解决上述问题的方法:定义了一个概率函数(sigmoid原创 2022-01-02 22:01:27 · 309 阅读 · 0 评论 -
ML - 决策树
文章目录什么是决策树特点树的组成关于顺序决策树的训练和测试决策树要解决的问题:决策树算法信息熵信息熵计算公式熵计算示例二分类的熵使用信息熵寻找最优划分信息增益使用熵和信息增益 构造决策树的实例信息增益率基尼系数二分类问题的基尼系数信息熵 & 基尼系数CART决策树的复杂度决策树解决回归问题决策树的局限性连续值的处理决策树的剪支策略预剪枝后剪枝决策树解决分类 & 回归问题相关:决策树-代码实现什么是决策树决策树:从根节点 开始一步步走到叶子节点(决策);所有数据最终会落到叶子几点;原创 2022-01-02 22:06:44 · 444 阅读 · 0 评论 -
RFM 模型
文章目录22.2 案例RFM 模型是衡量客户价值和客户创利能力的重要工具和手段;应用场景:客户关系管理(CRM) 分析模型;指标:最近一次消费 (Recency)消费频率 (Frequency)消费金额 (Monetary)22.2 案例import pandas as pdimport numpy as npimport timedata = pd.read_csv('RFM_TRAD_FLOW.csv',encoding='gbk')# print(data)#原创 2022-01-02 22:13:55 · 344 阅读 · 0 评论 -
ML - 逻辑回归(Logistic Regression)
文章目录什么是逻辑回归逻辑回归的流行度逻辑回归的损失函数决策边界逻辑回归中添加多项式特征解决多分类问题 OvR & OvOOvROvO什么是逻辑回归在特征空间找到一条直线,来分割样本到对应的两个分类。由线性回归衍生而来;原理:将样本的特征和样本发生的概率联系起来,概率是一个数;逻辑回归既可以看做是回归算法,也可以看做是分类算法;通常作为分类算法用,只可以解决二分类问题;也可以使用其他技巧使他支持多分类问题。值域(-infinity, +infinity)概率的值域为[0,原创 2022-01-02 22:30:59 · 171 阅读 · 0 评论 -
ML - 线性回归(Linear Regression)
文章目录关于线性回归线性回归特点和 kNN 图示的区别简单线性回归算法原理如何求解机器学习算法?编程实现简单线性回归向量化运算封装线性回归类评估方法向量化运算的性能测试线性回归的可解释性线性回归的评估关于线性回归KNN 主要解决分类问题,线性回归主要解决回归问题。寻找一条直线,最大程度的“拟合”样本特征和样本输出标记之间的关系。线性回归特点思想简单,实现容易许多强大的非线性模型的基础结果具有很好的可解释性蕴含机器学习中的很多重要思想是典型的参数学习;对比之下,kNN 是原创 2022-01-02 14:43:37 · 264 阅读 · 0 评论 -
ML - 集成学习
什么是集成学习Hard & Soft Voting创建更多子模型Bagging 和 PastingOOB并行计算差异化随机森林Extra-TreesBoostingAda BoostingGradient BoostingStacking如何训练 Stacking原创 2022-01-02 22:11:36 · 175 阅读 · 0 评论 -
ML - KNN
文章目录一、本质示例说明计算流程二、特点缺点:三、超参数 & 模型参数kNN 算法中的超参数四、代码实现1、Python 原生的实现2、sklearn 的实现五、评估算法的准确性六、digits 手写数字识别相关资料一、本质kNN:k-Nearest Neighbors,K近邻理论基础:如果样本A 和 样本B 足够相似,就A 和 B 大概率属于同一个类别。如果A 和 n 个样本相似,A 和n个样本属于同一个类别。示例说明K近邻算法示例:数据:两类点方块和三角绿色的点属于方块还是原创 2022-01-02 14:30:11 · 917 阅读 · 0 评论