![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
统计学习与数据挖掘
文章平均质量分 76
zoujiahui_2018
统计学博士
展开
-
PCA的原理及实现方法
主成分分析原创 2023-11-01 16:49:26 · 129 阅读 · 0 评论 -
K-center聚类的python实现
K-center聚类和K-means聚类类似,都是通过迭代类中心点直至收敛,不同的是K-center的中心点必须是一个真实的样本点,而K-means并不需要。原创 2022-12-30 14:47:12 · 833 阅读 · 0 评论 -
DBSCAN聚类的python实现
DBSCAN是一种基于密度的聚类算法,python中的sklearn.cluster库可以实现DBSCAN聚类。参数介绍1.eps:对象半径;2.min_samples:一个核心对象应该拥有的最少样本数;3.metric:计算样本之间距离的公式,默认metric=‘euclidean’,即欧式距离;4.algorithm:用来找最近邻样本点算法{‘auto’,‘ball_tree’,‘ke_tree’}5.leaf_size:kd_tree或ball_tree中的叶子节点数;决定了搜索快慢。原创 2022-12-30 11:56:36 · 3025 阅读 · 0 评论 -
k-mean聚类的python实现
模块提供了常用的非监督聚类算法。该模块中每一个聚类算法都有两个变体: 一个是类(class)另一个是函数(function)。类实现了fit方法来从训练数据中学习聚类;对类来说,训练过程得到的标签数据可以在属性 labels_ 中找到。函数接受训练数据返回对应于不同聚类的一个整数标签数组。1.n_clusters:整形,默认=8 ,生成的聚类数,即产生的质心(centroids)数。2.max_iter:整形,默认=300 ,执行一次k-means算法所进行的最大迭代数。原创 2022-12-30 11:39:58 · 999 阅读 · 2 评论 -
XGBoost模型的python实现
实现 XGBoost 分类算法使用的是xgboost库的,具体参数如下:1、max_depth:给定树的深度,默认为32、learning_rate:每一步迭代的步长,很重要。太大了运行准确率不高,太小了运行速度慢。我们一般使用比默认值小一点,0.1左右就好3、n_estimators:这是生成的最大树的数目,默认为1004、objective:给定损失函数,常用的有:– reg:linear– 线性回归– reg:logistic – 逻辑回归。原创 2022-12-30 10:57:57 · 3929 阅读 · 1 评论 -
Adaboost模型的python实现
Adaboost算法是一种集成学习(ensemble learning)方法。在集成学习中,强学习器指的是由多个机器学习模型组合形成的精度更高的模型。而参与组合的模型就被称为是弱学习器。进行预测时使用的是这些弱学习器的联合模型。训练时需要用训练样本依次训练这些弱学习器。典型的集成学习算法是随机森林和boosting算法,Adaboost算法是boosting算法的一种实现版本。原创 2022-12-30 10:41:34 · 1947 阅读 · 0 评论 -
Apriori算法的python实现
实现Apriori关联规则挖掘是借助mlxtend第三方包,使用步骤如下:1、调用apriori算法挖掘频繁项集,apriori()中min_support也就是最小支持度,默认为0.5;2、根据频繁项集,计算出它们的关联规则,使用association_rules()函数,如下df:就是 apriori 计算后的频繁项集metric:可选值有’support’,‘confidence’,‘lift’,‘leverage’,‘conviction’原创 2022-12-30 10:27:07 · 1652 阅读 · 0 评论 -
朴素贝叶斯分类的python的实现
sklearn 是 scikit–learn 的简称,是一个基于 Python 的第三方模块。sklearn 库集成了一些常用的机器学习方法,在进行机器学习任务时,并不需要实现算法,只需要简单的调用 sklearn 库中提供的模块就能完成大多数的机器学习任务。在sklearn中,一共有3个朴素贝叶斯的分类算法类:GaussianNB(先验是高斯分布的朴素贝叶斯);BernoulliNB(先验为伯努利分布的朴素贝叶斯);MultinomialNB(先验是多项式分布的朴素贝叶斯)。原创 2022-12-29 23:26:15 · 5756 阅读 · 1 评论 -
决策树和随机森林的python实现
决策树是一种有监督的机器学习算法,该方法可以用于解决分类和回归问题。决策树可以简单地理解为达到某一特定结果的一系列决策。包含分类树(classification tree)和回归树(regression tree)。原创 2022-12-29 00:17:27 · 2441 阅读 · 0 评论 -
分类算法KNN的python实现
KNN算法是有监督学习中的分类算法,它是一种非参的,惰性的算法模型。非参的意思并不是说这个算法不需要参数,而是意味着这个模型不会对数据做出任何的假设,与之相对的是线性回归(我们总会假设线性回归是一条直线)。也就是说KNN建立的模型结构是根据数据来决定的,这也比较符合现实的情况,毕竟在现实中的情况往往与理论上的假设是不相符的。惰性的意思是指模型在使用前不会被训练,只有当使用的时候才会被训练。KNN算法优点: 简单易用,相比其他算法,KNN算是比较简洁明了的算法。即使没有很高的数学基础也能搞清楚它的原理。原创 2022-12-28 22:35:39 · 4022 阅读 · 2 评论 -
数据EDA阶段的绘图
统计学习与数据挖掘的实操内容原创 2022-10-11 11:26:29 · 451 阅读 · 0 评论