![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习篇
文章平均质量分 80
gao_vip
这个作者很懒,什么都没留下…
展开
-
机器学习模型保存和导出pmml文件(python代码)
导出当前conda环境的所有包到一个environment.yml文件中,这个文件包含了conda环境中的所有依赖(包名和版本),包括Python包和非Python库,也可以用来完全恢复整个conda环境。训练好的模型通常需要在生产环境中部署和使用,一般导出为PMML(Predictive Model Markup Language)格式,以便在其他平台上使用,能够更加灵活地应用于各种场景。将当前环境中所有已安装的库及其版本信息输出到requirements.txt文件中。原创 2024-04-26 21:15:00 · 470 阅读 · 2 评论 -
模型优化调参方法介绍(Python代码)
模型算法在机器学习和深度学习中都发挥着自己的作用,但有的时候我们训练出来的模型并不能满足上线需求,那我们就需要对模型进行调优。一般来说,会从以下几个角度来优化模型。原创 2023-08-02 23:15:00 · 1671 阅读 · 0 评论 -
机器学习-决策树算法原理及实现-附python代码
决策树学习算法的最大优点是自学习,在学习过程中只需要对训练实例进行较好的标注,就能够进行学习,是一种无监督的学习。决策树对于训练集属于有很好的分类能力,但对未知的测试数据未必有很好的分类能力,泛化能力若,可能产生过拟合现象,所以必须要剪枝处理。在机器学习中,决策树是最常用也是最强大的监督学习算法,决策树主要用于解决分类问题,决策树算法 DecisionTree 是一种树形结构,采用的是自上而下的递归方法。支持的策略是“最佳”选择最佳分割,“随机”选择最佳随机分割,默认是最佳分割。叶节点所需的最小样本数。原创 2022-12-27 22:00:00 · 1978 阅读 · 1 评论 -
网格搜索调参-基于LightGBM算法分类器
LightGBM,是基于树结构的分类器模型,其基本思想是对所有特征都按照特征的数值进行排序,找到一个特征上的最好分割点,将数据分裂成左右子节点。这种算法有很多的优点,比如更快的训练效率、更高的准确率、支持并行化学习、大规模数据的处理等。由于涉及参数众多,如何寻找一组合适的参数就显得尤为重要,本文以LightGBM分类器为例,利用网格搜索寻找最优的参数组合。原创 2022-11-14 23:45:00 · 2468 阅读 · 3 评论 -
机器学习-LightGBM算法分类器-附python代码
LightGBM与XGBoost 算法类似,其基本思想都是对所有特征都按照特征的数值进行排序,找到一个特征上的最好分割点,将数据分裂成左右子节点。两种算法都有很多的优点,比如更快的训练效率、更高的准确率、支持并行化学习、大规模数据的处理等,但XGBOOST也有一些明显的缺点,如在选择树的分隔节点时,需要遍历所有的特征值,计算量大,内存占用量也大,还有易产生过拟合等。类似随机森林,它将在不进行重采样的情况下随机选择部分数据,可以用来加速训练,也可以用来处理过拟合。树的最大深度限制,防止过拟合。原创 2022-10-14 20:00:00 · 3091 阅读 · 0 评论 -
机器学习-最近邻算法KNN原理及实现-附python代码
KNN是通过测量不同特征值之间的距离进行分类。它的思路是:K个最近的邻居,每个样本都可以用它最接近的K个邻居来代表,如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特征, KNN算法的结果很大程度取决于K的选择,其中K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。在KNN中,通过计算对象间距离来作为各个对象之间原创 2022-09-09 18:01:37 · 1010 阅读 · 0 评论 -
机器学习-贝叶斯分类器(附Python代码)
通过贝叶斯定理的理解,运用贝叶斯分类器处理分类问题原创 2022-08-24 12:51:15 · 25236 阅读 · 1 评论 -
机器学习-聚类分析之DBSCAN
DBSCAN聚类算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。 该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。*class sklearn.cluster.DBSCAN(eps=0.5, , min_samples=5, metric=‘euclidean’, metric_param原创 2020-11-22 21:59:24 · 1321 阅读 · 1 评论 -
机器学习-聚类分析之KMeans
基本思路聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。目的是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。KMeans算法,对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,是类别内数据相似度较大,而类别间相似度较小。*class sklearn.cluster.KMeans(n_clusters=8, , init=‘k-means++’, n_init=10, max_iter=3.原创 2020-11-18 19:16:35 · 2241 阅读 · 0 评论 -
数据筛选特征方法-递归特征消除
对特征含有权重的预测模型(例如,线性模型对应参数coefficients),RFE通过递归减少考察的特征集规模来选择特征。首先,预测模型在原始特征上训练,每个特征指定一个权重。之后,那些拥有最小绝对值权重的特征被踢出特征集。如此往复递归,直至剩余的特征数量达到所需的特征数量。RFECV 通过交叉验证的方式执行RFE,以此来选择最佳数量的特征:对于一个数量为d的feature的集合,他的所有的子集的个数是2的d次方减1(包含空集)。指定一个外部的学习算法,比如SVM之类的。通过该算法计算所有子集的valid原创 2020-09-05 11:58:26 · 5387 阅读 · 2 评论 -
机器学习分类问题效果评价的三大类指标
在使用机器学习算法解决一些分类问题的过程中,往往需要不同的模型评估指标,主要有一下三类指标:1.混淆矩阵相关1.1混淆矩阵混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。1.2准确率(Accuracy)准确率是最常用的分类性能指标。Accuracy = (TP+TN)/(TP+FN+FP+TN)即正确预测的正反例数 /总数1.3精确率(Precision)精确率容易和准确率被混为一谈。其实,精确率只是原创 2020-08-15 21:47:17 · 2750 阅读 · 0 评论 -
python机器学习交叉验证实例
交叉验证(CrossValidation)是常用的机器学习训练手段,可以有效检验一个模型的泛化能力。交叉验证需要将原始数据集平等地划分为若干份,例如常用的10折交叉验证,10-folds CV 指的是将数据集分为10份,然后进行10次训练,每次取出一份数据作为测试集,剩下的作为训练集,得到10个模型,最终将10个模型的预测值做一个平均。具体python代码如下:def plot_cross_val(rf4, train_x, train_y,cv_num,path_out): impor.原创 2020-08-15 21:44:16 · 1756 阅读 · 0 评论 -
机器学习-随机森林的网格调参实例-附python代码
1. 随机森林RandomForestClassifier官方网址:https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html1.1 原理解释从给定的训练集通过多次随机的可重复的采样得到多个 bootstrap 数据集。接着,对每个 bootstrap 数据集构造一棵决策树,构造是通过迭代的将数据点分到左右两个子集中实现的,这个分割过程是一个搜索分割函数的参数空间以寻求最原创 2020-08-11 23:01:48 · 8414 阅读 · 2 评论 -
python利用wordcloud模块生成词云图
本文利用wordcloud模块生成词云图,以今年政府工作报告为例。# -*- coding: utf-8 -*-from wordcloud import WordCloudimport jiebaimport matplotlib.pyplot as pltclass drawWordcloud(): def __init__(self): pass def draw_wordcloud(self,comment_text): cut_text原创 2020-06-10 20:03:33 · 569 阅读 · 0 评论 -
常用机器学习算法模型简版代码
# -*- coding: utf-8 -*-"""Spyder EditorCreated on Wed Aug 23 10:18:27 2019@author: lenovo"""import osimport pandas as pdfrom sklearn import metricsfrom sklearn import preprocessingfrom sklea...原创 2019-12-18 12:09:27 · 618 阅读 · 0 评论 -
K-means聚类最佳k识别
# silhouette系数,越大越好import numpy as npfrom sklearn.cluster import KMeansfrom sklearn import metricsimport matplotlib.pyplot as pltplt.subplot(3, 2, 1)x1 = np.array([1, 2, 3, 1, 5, 6, 5, 5, 6, 7, ...原创 2019-12-15 22:04:35 · 492 阅读 · 0 评论 -
scipy cluster库聚类方法-附python代码
scipy cluster库简介scipy.cluster是scipy下的一个做聚类的package, 共包含了两类聚类方法:矢量量化(scipy.cluster.vq):支持vector quantization 和 k-means 聚类方法层次聚类(scipy.cluster.hierarchy):支持hierarchical clustering 和 agglomerative cl...原创 2019-12-15 22:01:01 · 1588 阅读 · 0 评论