机器学习笔记（一）

最新推荐文章于 2024-01-22 19:13:26 发布

walle318

最新推荐文章于 2024-01-22 19:13:26 发布

阅读量186

点赞数

分类专栏：机器学习算法笔记

本文链接：https://blog.csdn.net/walle318/article/details/79607009

版权

2 篇文章 0 订阅

订阅专栏

机器学习基本概念及算法

1、概念：计算机从数据中学习规律和模式，从而对新数据做出预测。

2、应用：金融、生物信息、医疗、能源、交通、互联网等行业，模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理、统计学习、电商推荐等场景

3、基本流程

“数据决定模型效果的上限，不同算法只是帮你逼近上限”

* 数据预处理：数据采样、数据切分、特征抽取、特征选择、降维、幅度缩放（连续性数值）、

* 模型学习：超参选择、交叉验证、结果评估、模型选择、模型训练

* 模型评估：分类、回归、排序评估

* 模型上线：新样本预测

4、常用评估方法：

“机器学习目标：得到泛化能力强（错误率低、精度高）的模型”

* 留出法：将数据集分为训练集和测试集。（数据分布一致性、多次重复划分、测试集大小在1/5-1/3之间）

* K折交叉验证法：也叫留一法

* 自助法：也叫有放回采样，包外估计即使用约36.8%未出现的样本作为测试集

5、常用评估标准度量标准

“性能度量，衡量模型的泛化能力的数值标准”

* 分类问题

错误率：

精度：

二分类混淆矩阵：（F1为P、R的几何平均值，β为加权数）

AUC：多个阈值下得到的多个混淆矩阵，计算其tpr和fpr值得到ROC曲线

* 回归问题

6、常用机器学习算法

目标值	无监督学习	监督学习
连续型	聚类&降维：K-means、SVD(奇异值分解)、PCA(主成分分析) GMM(高斯混合模型)	回归：线性回归、多项式回归决策树随机森林
离散型	关联规则：Aprior、FP-Grown(频繁模式树) hidden markov model(隐马尔可夫模型)	分类：KNN（K-最近邻）、逻辑回归、SVM(支持向量机)、Native-Bayes(朴素贝叶斯)、Tree(树模型)

目标值

无监督学习

监督学习

连续型

GMM(高斯混合模型)

离散型

关注