机器学习及实践

第二章 基础篇

2.1 监督学习经典模型

2.1.1分类学习

线性分类器

pandas.read_csv从互联网读取指定数据为DataFrame对象,默认分隔符为逗号,names 用于结果的列名列表,结合header = None

混淆矩阵: 分类结果n*n矩阵

Accuracy Recall Precision F1measure 以下以肿瘤预测为例,TruePositive表示恶性肿瘤被正确识别,FalseNegative表示良性肿瘤未被正确识别

Accuracy = (True Positive)+(True Negative)(True Positive)+(True Negative+(False Positive)+(False Negative) 准确性,所有样本被识别正确的几率

Recall = (True Positive)(True Positive)+(False Negative) 召回率,应该被正确识别的恶性肿瘤百分比

Precision= (True Positive)(True Positive)+(False Positive)

F1 measure= 21Precision+1Recall

从sklearn.model_selection 中选择train_test_split进行随机化分割数据集和测试集

常见分类模型:

​ 线性分类器:LogisticClassifier SGDClassifier(随机梯度参数估计);极其简单,假设特征和分类目标直接线性关系,训练规模10万量级以上用SGD更快

​ 支持向量机(SVM):在高维度或者海量的数据中,筛选对预测任务最为有效的少数训练样本,但是需要更多的计算代价(cpu和时间)

​ 朴素贝叶斯(NaiveBayes):假设前提是贝叶斯理论,各个维度的特征被分类的条件概率之间是相互独立的;广泛用于文本互联网分类任务,由于其假设,对于特征间联系紧密的分类任务上的性能表现不佳

​ K近邻(KNN):没有参数训练过程,属于无参数模型,简单,消耗内存大和计算复杂度较高

​ 决策树:描述非线性关系的好选择;由于是树形结构,极便于模型描述,直观可视化,同时无需考虑量化甚至标准化,上述其他数值较广时都需要标准化

​ 集成模型:利用相同数据同时搭建多个独立模型再通过投票方式决出分类决策;常见随机森林分类器(相当于随机选择特征的决策树),梯度提升决策树(按照一定的依赖次序,);耗费更多时间但是效果往往最好稳定性也好

2.1.2回归

回归问题有R-squared评价方式综合考虑回归值与真实值的差异,同时兼顾问题本身真实值的变动

SSabs=mi=1yiy

Mean Absolute Error 平均绝对误差: MAE=SSabsm

SStot=mi=1(yiy) 表示测试数据真实值的方差(内部)

Mean Squared Error 均方误差: MSE=SStotm

SSres=i=1m(yif(xi))2 SSres 表示回归值和真实值之间的平方差异

R2 衡量模型回归结果的波动可被真实值验证的百分比,暗示模型再数值回归方面的能力

从sklean_metrics 导入r2_score mean_squared_error mean_absoluate_error

实验验证发现,回归模型自带的score和R^2结果一致,直接使用即可

几种常见回归模型:

​ 线性回归:线性假设限制其应用范围,简单方便,可做基线系统(Baseline System)

​ 支持向量:一般rbf核函数效果最好

​ K近邻:计算方法直观,无参数模型

​ 回归树:可以解决非线性问题,不要求特征标准化和统一量化;正是因为可以解决复杂的非线性问题其泛化能力较差,预测稳定性比较差

​ 集成模型:极端随机森林(Extremely Randomized Trees),普通随机森林(Random Forest),提升树模型(Gradient Boosting Regressor); 性能和稳定性一般良好,耗费时间多,一般作基线系统

2.2无监督经典模型

2.2.1聚类

最常用最简单为K-means

对于聚类算法的性能评估常见有两种:

1.ARI:Adjusted Rand Index 针对数据本身有标签,与分类问题中计算准确性的方法类似,同时兼顾到类簇无法和分类标记一一对应的问题

2.轮廓系数:Silhouette Coefficient 同时兼顾聚类的凝聚度(Cohesion)和分离度(Separation)

每个样本的轮廓系数: sci=biaimax(bi,ai) ,再计算均值作为整体轮廓系数

其中 ai:xi 与簇内所有其他样本的平均距离,量化凝聚度

bi:xi 外的簇b中的所有样本的平均距离,遍历所有簇,找到最小的那个距离,即量化分离度

特点:算法自身缺陷:Kmeans容易收敛到局部最优解,初始k值对结果影响很大

2.2.2特征降维

最常用主成分分析PCA(Principal Component Analysis)降维

相较于损失的少部分模型性能,维度压缩能节省大量用于训练模型的时间,使得PCA所带来的模型综合效率变得更为划算

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值