机器学习的复习

机器学习就是通过数据和以前的算法模型,,知识让机器通过数据来获得某种知识,从而获得解决问题和全新的模型

数据定义 :

数据集,又称为资料集,数据集合或资料集合,是一种由数据所组成的集合

优化方法: 

最小二乘法:

通过最小误差的平方和来寻找数据的最佳函数并与之匹配

梯度下降:

函数变化最快的方向就是梯度方向,沿着梯度负方向探寻参数

激活函数 :

sigmoid函数:在定义域内处处可导,将值域在负无穷到正无穷区间的数组映射到[0,1]之间

tanh函数:在定义域内可导,将值域在值域在负无穷到正无穷区间的数组映射到[-1,1]之间

relu函数:x与0比大小,大,为x,小为0

激活函数的作用:是帮助神经网络将一些噪音进行隔离,激活有用的信息,抑制无关的信息

回归算法 :

 是一种对数据进行预测分析的技术,是用于估计多组变量之间相互依赖的定量关系的一种系统分析方法

线性回归与逻辑回归的区别:

 逻辑回归需要通过sigmoid函数将值域为负无穷到正无穷的数据映射到0和1之间,用于表征预测值为某类别的概率

算法的过程评估: 

1.均方误差:

反应训练结果与真实值之间的偏离关系

2.错误率与精确度:

分类错误样本数占总样本数的比列;分类正确样本数占样本总数的比例

3.准确度、灵敏度与F1:

灵敏度:

衡量模型检测出来的数据有多少 的相关数据

准确度:

衡量模型检测出的数据噪声比的指标

混淆矩阵: 

真阳性(True Positive,TP):样本的真实类别是正例,并且模型预测的结果也是正例
真阴性(True Negative,TN):样本的真实类别是负例,并且模型将其预测成为负例
假阳性(False Positive,FP):样本的真实类别是负例,但是模型将其预测成为正例
假阴性(False Negative,FN):样本的真实类别是正例,但是模型将其预测成为负例

 混淆矩阵

准确率(accuracy):预测正确的结果占总样本的百分比

准确率 

召回率(recall):在实际为正的样本中被预测为正样本的概率

召回率

评估模型的代码:


from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

print('准确率:', accuracy_score(y_test, y_hat))
print('精确率:', precision_score(y_test, y_hat))
print('召回率:', recall_score(y_test, y_hat))
print('F1调和平均值:', f1_score(y_test, y_hat))
print('score方法计算正确率:',lr.score(x_test, y_test))

 

有关代码的复习: 

#排查缺失值和异常值
df[df.isnull()]
#相关性分析
import seanborn as sns
sns.heatmap(df.corr(),annot=True)
#划分数据集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2)
#数据规约
from sklearn.preprocessing import StandardScaler
sc_x=StandardScaler()
sc_y=StandardScaler()
x_train_d=sc.fit_transform(x_train)
x_test_d=np.ravel(sc.fit_trnasform(x_test))

模型的优缺点比较:

模型优缺点比较

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值