机器学习的复习

最新推荐文章于 2022-01-12 19:35:53 发布

Small Sun

最新推荐文章于 2022-01-12 19:35:53 发布

阅读量113

点赞数

分类专栏：机器学习文章标签： pytorch 机器学习

本文链接：https://blog.csdn.net/m0_58204203/article/details/118345455

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

机器学习就是通过数据和以前的算法模型，，知识让机器通过数据来获得某种知识，从而获得解决问题和全新的模型

数据定义：

数据集，又称为资料集，数据集合或资料集合，是一种由数据所组成的集合

优化方法：

最小二乘法：

通过最小误差的平方和来寻找数据的最佳函数并与之匹配

梯度下降：

函数变化最快的方向就是梯度方向，沿着梯度负方向探寻参数

激活函数：

sigmoid函数：在定义域内处处可导，将值域在负无穷到正无穷区间的数组映射到[0,1]之间

tanh函数：在定义域内可导，将值域在值域在负无穷到正无穷区间的数组映射到[-1,1]之间

relu函数：x与0比大小，大,为x，小为0

激活函数的作用：是帮助神经网络将一些噪音进行隔离，激活有用的信息，抑制无关的信息

回归算法：

是一种对数据进行预测分析的技术，是用于估计多组变量之间相互依赖的定量关系的一种系统分析方法

线性回归与逻辑回归的区别：

逻辑回归需要通过sigmoid函数将值域为负无穷到正无穷的数据映射到0和1之间，用于表征预测值为某类别的概率

算法的过程评估：

1.均方误差：

反应训练结果与真实值之间的偏离关系

2.错误率与精确度：

分类错误样本数占总样本数的比列；分类正确样本数占样本总数的比例

3.准确度、灵敏度与F1：

灵敏度：

衡量模型检测出来的数据有多少的相关数据

准确度：

衡量模型检测出的数据噪声比的指标

混淆矩阵：

真阳性（True Positive，TP）：样本的真实类别是正例，并且模型预测的结果也是正例
真阴性（True Negative，TN）：样本的真实类别是负例，并且模型将其预测成为负例
假阳性（False Positive，FP）：样本的真实类别是负例，但是模型将其预测成为正例
假阴性（False Negative，FN）：样本的真实类别是正例，但是模型将其预测成为负例

混淆矩阵

准确率（accuracy）：预测正确的结果占总样本的百分比

准确率

召回率（recall）：在实际为正的样本中被预测为正样本的概率

召回率

评估模型的代码：

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

print('准确率：', accuracy_score(y_test, y_hat))
print('精确率：', precision_score(y_test, y_hat))
print('召回率：', recall_score(y_test, y_hat))
print('F1调和平均值：', f1_score(y_test, y_hat))
print('score方法计算正确率：',lr.score(x_test, y_test))

有关代码的复习：

#排查缺失值和异常值
df[df.isnull()]
#相关性分析
import seanborn as sns
sns.heatmap(df.corr(),annot=True)
#划分数据集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2)
#数据规约
from sklearn.preprocessing import StandardScaler
sc_x=StandardScaler()
sc_y=StandardScaler()
x_train_d=sc.fit_transform(x_train)
x_test_d=np.ravel(sc.fit_trnasform(x_test))