机器学习就是通过数据和以前的算法模型,,知识让机器通过数据来获得某种知识,从而获得解决问题和全新的模型
数据定义 :
数据集,又称为资料集,数据集合或资料集合,是一种由数据所组成的集合
优化方法:
最小二乘法:
通过最小误差的平方和来寻找数据的最佳函数并与之匹配
梯度下降:
函数变化最快的方向就是梯度方向,沿着梯度负方向探寻参数
激活函数 :
sigmoid函数:在定义域内处处可导,将值域在负无穷到正无穷区间的数组映射到[0,1]之间
tanh函数:在定义域内可导,将值域在值域在负无穷到正无穷区间的数组映射到[-1,1]之间
relu函数:x与0比大小,大,为x,小为0
激活函数的作用:是帮助神经网络将一些噪音进行隔离,激活有用的信息,抑制无关的信息
回归算法 :
是一种对数据进行预测分析的技术,是用于估计多组变量之间相互依赖的定量关系的一种系统分析方法
线性回归与逻辑回归的区别:
逻辑回归需要通过sigmoid函数将值域为负无穷到正无穷的数据映射到0和1之间,用于表征预测值为某类别的概率
算法的过程评估:
1.均方误差:
反应训练结果与真实值之间的偏离关系
2.错误率与精确度:
分类错误样本数占总样本数的比列;分类正确样本数占样本总数的比例
3.准确度、灵敏度与F1:
灵敏度:
衡量模型检测出来的数据有多少 的相关数据
准确度:
衡量模型检测出的数据噪声比的指标
混淆矩阵:
真阳性(True Positive,TP):样本的真实类别是正例,并且模型预测的结果也是正例
真阴性(True Negative,TN):样本的真实类别是负例,并且模型将其预测成为负例
假阳性(False Positive,FP):样本的真实类别是负例,但是模型将其预测成为正例
假阴性(False Negative,FN):样本的真实类别是正例,但是模型将其预测成为负例
准确率(accuracy):预测正确的结果占总样本的百分比
召回率(recall):在实际为正的样本中被预测为正样本的概率
评估模型的代码:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
print('准确率:', accuracy_score(y_test, y_hat))
print('精确率:', precision_score(y_test, y_hat))
print('召回率:', recall_score(y_test, y_hat))
print('F1调和平均值:', f1_score(y_test, y_hat))
print('score方法计算正确率:',lr.score(x_test, y_test))
有关代码的复习:
#排查缺失值和异常值
df[df.isnull()]
#相关性分析
import seanborn as sns
sns.heatmap(df.corr(),annot=True)
#划分数据集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2)
#数据规约
from sklearn.preprocessing import StandardScaler
sc_x=StandardScaler()
sc_y=StandardScaler()
x_train_d=sc.fit_transform(x_train)
x_test_d=np.ravel(sc.fit_trnasform(x_test))