机器学习相关模型和评估指标API

最新推荐文章于 2022-03-08 15:06:45 发布

喵了个咪mr

最新推荐文章于 2022-03-08 15:06:45 发布

阅读量230

点赞数

分类专栏： python 机器学习

本文链接：https://blog.csdn.net/weixin_42704669/article/details/106632711

版权

python 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

机器学习

9 篇文章 0 订阅

订阅专栏

这里写目录标题

回归模型
- 模型：
- 评估指标：
分类模型
模型（针对分类）选择
模型（针对回归）选择
补充

回归模型

模型：
线性回归

import sklearn.linear_model as lm
# 创建模型
model = lm.LinearRegression()
# 训练模型
# 输入为一个二维数组表示的样本矩阵
# 输出为每个样本最终的结果
model.fit(输入, 输出) # 通过梯度下降法计算模型参数
# 预测输出  
# 输入array是一个二维数组，每一行是一个样本，每一列是一个特征。
result = model.predict(array)

岭回归

import sklearn.linear_model as lm
# 创建模型
model = lm.Ridge(正则强度，fit_intercept=是否训练截距, max_iter=最大迭代次数)
# 训练模型
# 输入为一个二维数组表示的样本矩阵
# 输出为每个样本最终的结果
model.fit(输入, 输出)
# 预测输出  
# 输入array是一个二维数组，每一行是一个样本，每一列是一个特征。
result = model.predict(array)

多项式回归

使用sklearn提供的数据管线实现两个步骤的顺序执行

import sklearn.pipeline as pl
import sklearn.preprocessing as sp
import sklearn.linear_model as lm

model = pl.make_pipeline(
    sp.PolynomialFeatures(10),  # 多项式特征扩展器
    lm.LinearRegression())      # 线性回归器

决策树回归

决策树回归器模型相关API：

import sklearn.tree as st

# 创建决策树回归器模型  决策树的最大深度为4
model = st.DecisionTreeRegressor(max_depth=4)
# 训练模型  
# train_x： 二维数组样本数据
# train_y： 训练集中对应每行样本的结果
model.fit(train_x, train_y)
# 测试模型
pred_test_y = model.predict(test_x)

正向激励

正向激励相关API：

import sklearn.tree as st
import sklearn.ensemble as se
# model: 决策树模型（一颗）
model = st.DecisionTreeRegressor(max_depth=4)
# 自适应增强决策树回归模型	
# n_estimators：构建400棵不同权重的决策树，训练模型
model = se.AdaBoostRegressor(model, n_estimators=400, random_state=7)
# 训练模型
model.fit(train_x, train_y)
# 测试模型
pred_test_y = model.predict(test_x)

随机森林

随机森林相关API：

import sklearn.ensemble as se
# 随机森林回归模型	（属于集合算法的一种）
# max_depth：决策树最大深度10
# n_estimators：构建1000棵决策树，训练模型
# min_samples_split: 子表中最小样本数 若小于这个数字，则不再继续向下拆分
model = se.RandomForestRegressor(max_depth=10, n_estimators=1000, min_samples_split=2)

支持向量机(SVM)
理论知识

import sklearn.svm as svm
#kernel:内核，C：正则强度,epsilon:不敏感间隔
model = svm.SVR(kernel='rbf', C = 100,epsilon=0.2)

评估指标：

r2得分,平均绝对值误差

import sklearn.metrics as sm

# 平均绝对值误差：1/m∑|实际输出-预测输出|
sm.mean_absolute_error(y, pred_y)
# 平均平方误差：SQRT(1/mΣ(实际输出-预测输出)^2)
sm.mean_squared_error(y, pred_y)
# 中位绝对值误差：MEDIAN(|实际输出-预测输出|)
sm.median_absolute_error(y, pred_y)
# R2得分，(0,1]区间的分值。分数越高，误差越小。
sm.r2_score(y, pred_y)

分类模型

模型：

逻辑分类

逻辑回归相关API：

import sklearn.linear_model as lm
# 构建逻辑回归器 
# solver：逻辑函数中指数的函数关系（liblinear为线型函数关系）
# C：参数代表正则强度，为了防止过拟合。正则越大拟合效果越小。
model = lm.LogisticRegression(solver='liblinear', C=正则强度)
model.fit(训练输入集，训练输出集)
result = model.predict(带预测输入集)

朴素贝叶斯

高斯贝叶斯分类器相关API：

# 创建高斯分布朴素贝叶斯分类器
model = nb.GaussianNB()
model.fit(x, y)
result = model.predict(samples)

决策树（随机森林）

import sklearn.ensemble as se
# 随机森林分类器
model = se.RandomForestClassifier(max_depth=6, n_estimators=200, random_state=7)

支持向量机（SVM）

线性核函数：linear，不通过核函数进行维度提升，仅在原始维度空间中寻求线性分类边界。

基于线性核函数的SVM分类相关API：

model = svm.SVC(kernel='linear')
model.fit(train_x, train_y)

多项式核函数：poly，通过多项式函数增加原始样本特征的高次方幂

# 基于线性核函数的支持向量机分类器
model = svm.SVC(kernel='poly', degree=3)
model.fit(train_x, train_y)

径向基核函数：rbf，通过高斯分布函数增加原始样本特征的分布概率

# 基于径向基核函数的支持向量机分类器
# C：正则强度
# gamma：正态分布曲线的标准差
model = svm.SVC(kernel='rbf', C=600, gamma=0.01)
model.fit(train_x, train_y)

评估方式：

混淆矩阵

获取模型分类结果的混淆矩阵的相关API：

import sklearn.metrics as sm
sm.confusion_matrix(实际输出, 预测输出)->混淆矩阵

分类报告

# 获取分类报告
cr = sm.classification_report(实际输出, 预测输出)

评估指标：

查准率，召回率，f1得分

# 交叉验证
# 精确度
ac = ms.cross_val_score( model, train_x, train_y, cv=5, scoring='accuracy')
print(ac.mean())
# 查准率
pw = ms.cross_val_score( model, train_x, train_y, cv=5, scoring='precision_weighted')
print(pw.mean())
# 召回率
rw = ms.cross_val_score( model, train_x, train_y, cv=5, scoring='recall_weighted')
print(rw.mean())
# f1得分
fw = ms.cross_val_score( model, train_x, train_y, cv=5, scoring='f1_weighted')
print(fw.mean())

模型（针对分类）选择

数据集划分

数据集划分相关API：

import sklearn.model_selection as ms

ms.train_test_split(输入集, 输出集, test_size=测试集占比, random_state=随机种子)
    ->训练输入, 测试输入, 训练输出, 测试输出

交叉验证
sklearn提供了交叉验证相关API：

import sklearn.model_selection as ms
ms.cross_val_score(模型, 输入集, 输出集, cv=折叠数, scoring=指标名)->指标值数组

验证曲线
验证曲线：模型性能 = f(超参数)

验证曲线所需API：

train_scores, test_scores = ms.validation_curve(
    model,		# 模型 
    输入集, 输出集, 
    'n_estimators', 		#超参数名
    np.arange(50, 550, 50),	#超参数序列
    cv=5		#折叠数
)

学习曲线
学习曲线：模型性能 = f(训练集大小)

学习曲线所需API：

_, train_scores, test_scores = ms.learning_curve(
    model,		# 模型 
    输入集, 输出集, 
    [0.9, 0.8, 0.7],	# 训练集大小序列
    cv=5		# 折叠数
)

网格搜索

网格搜索相关API：

import sklearn.model_selection as ms
model = ms.GridSearchCV(模型, 超参数组合列表, cv=折叠数)
model.fit(输入集，输出集)
# 获取网格搜索每个参数组合
model.cv_results_['params']
# 获取网格搜索每个参数组合所对应的平均测试分值
model.cv_results_['mean_test_score']
# 获取最好的参数
model.best_params_
model.best_score_
model.best_estimator_

模型（针对回归）选择
双层for循环遍历参数，输出每个参数组合对应的r2得分

补充
模型的保存和加载

模型训练是一个耗时的过程，一个优秀的机器学习是非常宝贵的。可以模型保存到磁盘中，也可以在需要使用的时候从磁盘中重新加载模型即可。不需要重新训练。

模型保存和加载相关API：

import pickle
pickle.dump(内存对象, 磁盘文件) # 保存模型
model = pickle.load(磁盘文件)  # 加载模型

案例：把训练好的模型保存到磁盘中。

# 将训练好的模型对象保存到磁盘文件中
with open('../../data/linear.pkl', 'wb') as f:
    pickle.dump(model, f)
    
# 从磁盘文件中加载模型对象
with open('../../data/linear.pkl', 'rb') as f:
    model = pickle.load(f)
# 根据输入预测输出
pred_y = model.predict(x)

置信概率
获取每个样本的置信概率相关API：

# 在获取模型时，给出超参数probability=True
model = svm.SVC(kernel='rbf', C=600, gamma=0.01, probability=True)
预测结果 = model.predict(输入样本矩阵)
# 调用model.predict_proba(样本矩阵)可以获取每个样本的置信概率矩阵
置信概率矩阵 = model.predict_proba(输入样本矩阵)

喵了个咪mr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习相关模型和评估指标API

这里写目录标题回归模型模型：评估指标：分类模型模型：评估方式：评估指标：模型（针对分类）选择模型（针对回归）选择补充回归模型模型：线性回归import sklearn.linear_model as lm# 创建模型model = lm.LinearRegression()# 训练模型# 输入为一个二维数组表示的样本矩阵# 输出为每个样本最终的结果model.fit(输入, 输出) # 通过梯度下降法计算模型参数# 预测输出 # 输入array是一个二维数组，每
复制链接

扫一扫