python 超全sklearn教程，数据挖掘从入门到入坑

最新推荐文章于 2025-04-02 00:15:00 发布

ZNGSTAT

最新推荐文章于 2025-04-02 00:15:00 发布

阅读量7.5k

点赞数 9

分类专栏：机器学习 python 文章标签： python 数据挖掘机器学习

本文链接：https://blog.csdn.net/qwop446/article/details/78003452

版权

本文详细介绍了机器学习的基本概念、方法分类，并重点探讨了Python中的sklearn库，包括其安装、使用和常见模型。内容涵盖监督学习、非监督学习、数据标准化和模型评估，特别强调了sklearn在数据挖掘中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近工作中遇到了一些数据建模的问题，趁这几天有时间，把数据挖掘过程中一些流程规范和常见的机器学习问题总结一下。本篇博文涵盖的内容有机器学习的概念，模型分类（有监督、无监督），python语言与R语言，以及基于sklearn的机器学习框架。

一、什么是机器学习

机器学习概念的来自计算机科学领域，相关的一些研究与统计学有很大的重复部分。人类个体的学习是由客观世界给出的反馈然后进行向最优方向调节的过程，计算机科学家认为机器也可以像人脑一样进行学习，基于他们的数学功底，开发出的算法命名为机器学习。学习的本质是一大批互相连接的信息传递和存储元素所组成的系统。他们共同的特点是：开始准确率很低，随着学习进行，准确率越来越高。

让计算机学习分辨标签

二、机器学习方法的分类

2.1 监督式学习 Supervised Learning

在监督式学习下，每组训练数据都有一个标识值或结果值(target)。

2.1.1 分类 Classification

（1）K最近邻 K-Nearest Neighbor (KNN)
（2）朴素贝叶斯 Naive Bayes
（3）决策树 Decision Tree

ID3
C4.5
分类回归树 Classification And Regression Tree (CART)

这里写图片描述
区别：决策树系列算法总结（ID3, C4.5, CART, Random Forest, GBDT)
（4）支持向量机器 Support Vector Machine (SVM)

2.1.2 回归 Regression

（1）线性回归 linear regression
（2）局部加权回归 Locally weighted regression
（3）逻辑回归 logistic Regression
（4）逐步回归 stepwise regression
（5）岭回归 Ridge Regression
（6）Least Absolute Shrinkage and Selection Operator ( LASSO )
（7）弹性网络 Elastic Net (L1+L2)
（8）人工神经网络

2.2 非监督学习 Unsupervised Learning

（1）聚类 Cluster (K均值 k-means)
（2）主成分分析Principal Component Analysis ( PCA )
（3）偏最小二乘回归 Partial Least Squares Regression ( PLS )
（4）关联规则 Association Rule

2.3 半监督

在半监督学习方式下，训练数据有部分被标识，部分没有被标识，这种模型首先需要学习数据的内在结构，以便合理的组织数据来进行预测。算法上，包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如深度学习：

深度学习 Deep Learning

深度学习是监督学习的匹配学习中人工神经网络延伸出来发展出来的。
（1）受限波尔兹曼机 Restricted Boltzmann Machine ( RBM )
（2）深度信念网络 Deep Belief Networks ( DBN )
（3）卷积网络 Convolutional Network
（4）栈式自编码 Stacked Auto-encoders