机器学习笔记(一)

机器学习基本概念及算法

1、概念:计算机从数据中学习规律和模式,从而对新数据做出预测。


2、应用:金融、生物信息、医疗、能源、交通、互联网等行业,模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理、统计学习、电商推荐等场景

3、基本流程

           数据决定模型效果的上限,不同算法只是帮你逼近上限”

* 数据预处理:数据采样、数据切分、特征抽取、特征选择、降维、幅度缩放(连续性数值)、

* 模型学习:超参选择、交叉验证、结果评估、模型选择、模型训练

* 模型评估:分类、回归、排序评估

* 模型上线:新样本预测

4、常用评估方法:

        “机器学习目标:得到泛化能力强(错误率低、精度高)的模型”

* 留出法:将数据集分为训练集和测试集。(数据分布一致性、多次重复划分、测试集大小在1/5-1/3之间)

* K折交叉验证法:也叫留一法


* 自助法:也叫有放回采样,包外估计即使用约36.8%未出现的样本作为测试集


5、常用评估标准度量标准

          “性能度量,衡量模型的泛化能力的数值标准”

* 分类问题

错误率:

             

精度:

  

二分类混淆矩阵:(F1为P、R的几何平均值,β为加权数)

   


AUC:多个阈值下得到的多个混淆矩阵,计算其tpr和fpr值得到ROC曲线


* 回归问题


6、常用机器学习算法

目标值  无监督学习监督学习
连续型

  • 聚类&降维:K-means、SVD(奇异值分解)、PCA(主成分分析)
        GMM(高斯混合模型)

  • 回归:线性回归、多项式回归
  • 决策树
  • 随机森林
离散型

  • 关联规则:Aprior、FP-Grown(频繁模式树)
  • hidden markov model(隐马尔可夫模型)
  • 分类:KNN(K-最近邻)、逻辑回归、SVM(支持向量机)、Native-Bayes(朴素贝叶斯)、Tree(树模型)






  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值