本节开始一个全新的系列,是整套 Python 第四阶段 (最后一阶段) 的课。我把整套知识体系分成四个模块:
Python 基础
数据分析:NumPy, Pandas, SciPy
数据可视化:Matplotlib, Seaborn, Bokeh, Plotly/Cufflinks, PyEcharts
机器学习:Scikit-Learn, Scikit-Plot, Keras
这是 Python 数据机器学习系列的第一节《Scikit-Learn 上》,之前 Python 数据可视化、数据分析和基础课如下:
Python 数据可视化
Python 数据分析
Python 基础
在 Sklearn 里面有六大任务模块:分别是分类、回归、聚类、降维、模型选择和预处理,如下图从其官网的截屏。
要使用上述六大模块的方法,可以用以下的伪代码,注意 import 后面用的都是一些通用名称如 SomeClassifier, SomeRegressor, SomeModel,具体化的名称由具体问题而定,比如
SomeClassifier = RandomForestClassifier
SomeRegressor = LinearRegression
SomeModel = KMeans, PCA
SomeModel = GridSearchCV, OneHotEncoder
上面具体化的例子分别是随机森林分类器、线性回归器、K 均值聚类、主成分分析、网格追踪法、独热编码。
本此课程用以下思路来讲解:
先介绍 Sklearn,从其 API 设计原理出发分析其五大特点:一致性、可检验、标准类、可组合和默认值。最后再分析 Sklearn 里面自带数据以及储存格式。
再介绍机器学习,从定义出发引出机器学习四要素:数据、任务、性能度量和模型。
最后介绍 Sklearn 里面的三大核心 API,包括估计器、预测器和转换器。此内容最重要,几乎所有模型都会用到这三大 API。
估计器
预测器
转换器
想学就开始吧!
绝不会让你失望!
付费用户(付 1 赠 1)可以获得:
观看课程视频 (144 分钟)
Python 代码 (Jupyter Notebook)
Jupyter Notebook