机器学习及实践

最新推荐文章于 2023-04-22 19:52:28 发布

猴哥coding

最新推荐文章于 2023-04-22 19:52:28 发布

阅读量353

点赞数

分类专栏：机器学习文章标签：机器学习数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/houchengkun/article/details/76981356

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第二章基础篇

2.1 监督学习经典模型

2.1.1分类学习

线性分类器

pandas.read_csv从互联网读取指定数据为DataFrame对象，默认分隔符为逗号，names 用于结果的列名列表，结合header = None

混淆矩阵: 分类结果n*n矩阵

Accuracy Recall Precision F1measure 以下以肿瘤预测为例，TruePositive表示恶性肿瘤被正确识别，FalseNegative表示良性肿瘤未被正确识别

Accuracy = $\cfrac {(True\space Positive) + (True\space Negative)}{(True \space Positive) + (True\space Negative + (False\space Positive) + (False \space Negative)}$ 准确性，所有样本被识别正确的几率

Recall = $\cfrac {(True\space Positive)}{(True \space Positive) + (False \space Negative)}$ 召回率，应该被正确识别的恶性肿瘤百分比

Precision= $\cfrac {(True\space Positive)}{(True \space Positive) + (False\space Positive)}$

F1 measure= $\cfrac{2}{\cfrac{1}{Precision} + \cfrac{1}{Recall}}$

从sklearn.model_selection 中选择train_test_split进行随机化分割数据集和测试集

常见分类模型：

线性分类器：LogisticClassifier SGDClassifier(随机梯度参数估计);极其简单，假设特征和分类目标直接线性关系，训练规模10万量级以上用SGD更快

支持向量机（SVM）:在高维度或者海量的数据中，筛选对预测任务最为有效的少数训练样本，但是需要更多的计算代价（cpu和时间）

朴素贝叶斯（NaiveBayes）：假设前提是贝叶斯理论，各个维度的特征被分类的条件概率之间是相互独立的；广泛用于文本互联网分类任务，由于其假设，对于特征间联系紧密的分类任务上的性能表现不佳

K近邻（KNN）：没有参数训练过程，属于无参数模型，简单，消耗内存大和计算复杂度较高

决策树：描述非线性关系的好选择；由于是树形结构，极便于模型描述，直观可视化，同时无需考虑量化甚至标准化，上述其他数值较广时都需要标准化

集成模型：利用相同数据同时搭建多个独立模型再通过投票方式决出分类决策；常见随机森林分类器（相当于随机选择特征的决策树），梯度提升决策树（按照一定的依赖次序，）；耗费更多时间但是效果往往最好稳定性也好

2.1.2回归

回归问题有R-squared评价方式综合考虑回归值与真实值的差异，同时兼顾问题本身真实值的变动

$SS_{abs} = \sum_{i=1}^m \lvert y^i - \overline y\rvert$

Mean Absolute Error 平均绝对误差： $MAE = \cfrac{SS_{abs}}{m}$

$SS_{tot} = \sum_{i=1}^m (y^i - \overline y)$ 表示测试数据真实值的方差（内部）

Mean Squared Error 均方误差： $MSE = \cfrac{SS_{tot}}{m}$

$SS_{res} = \sum_{i=1}{m}(y^i - f(x^i))^2$ $SS_{res}$ 表示回归值和真实值之间的平方差异

$R^2$ 衡量模型回归结果的波动可被真实值验证的百分比，暗示模型再数值回归方面的能力

从sklean_metrics 导入r2_score mean_squared_error mean_absoluate_error

实验验证发现，回归模型自带的score和R^2结果一致，直接使用即可

几种常见回归模型：

线性回归：线性假设限制其应用范围，简单方便，可做基线系统(Baseline System)

支持向量：一般rbf核函数效果最好

K近邻：计算方法直观，无参数模型

回归树：可以解决非线性问题，不要求特征标准化和统一量化；正是因为可以解决复杂的非线性问题其泛化能力较差，预测稳定性比较差

集成模型：极端随机森林(Extremely Randomized Trees)，普通随机森林(Random Forest)，提升树模型(Gradient Boosting Regressor); 性能和稳定性一般良好，耗费时间多，一般作基线系统

2.2无监督经典模型

2.2.1聚类

最常用最简单为K-means

对于聚类算法的性能评估常见有两种：

1.ARI:Adjusted Rand Index 针对数据本身有标签，与分类问题中计算准确性的方法类似，同时兼顾到类簇无法和分类标记一一对应的问题

2.轮廓系数：Silhouette Coefficient 同时兼顾聚类的凝聚度(Cohesion)和分离度(Separation)

每个样本的轮廓系数： $sc^i = \cfrac{b^i - a^i}{max(b^i,a^i)}$ ，再计算均值作为整体轮廓系数

其中 $a^i:x^i$ 与簇内所有其他样本的平均距离，量化凝聚度

$b^i:x^i$ 外的簇b中的所有样本的平均距离，遍历所有簇，找到最小的那个距离，即量化分离度

特点：算法自身缺陷：Kmeans容易收敛到局部最优解，初始k值对结果影响很大

2.2.2特征降维

最常用主成分分析PCA(Principal Component Analysis)降维

相较于损失的少部分模型性能，维度压缩能节省大量用于训练模型的时间，使得PCA所带来的模型综合效率变得更为划算

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。