机器学习(1)——方法、困难与挑战、学习过程

机器学习(1)——方法、困难与挑战、学习过程

机器学习分类

有监督学习(supervised learning)

  • 从给定的有标注的训练数据集中学习出一个函数(形参模型),当新的数据到来时可以根据这个函数预测结果。常见任务包括分类回归

无监督学习(unsupervised learning)

  • 没有标注的训练数据集,需要根据样本间的统计规律对样本集进行分析,常见任务如聚类等。

半监督学习(Semi-supervised learning)

  • 结合(少量的标注训练数据和(大量的未标注数据来进行数据的分类学习。
  • 两个假设:聚类假设,流形假设。

增强学习(Reinforcement learning)

  • 外部环境对输出只给出评价信息而非正确答案,学习机通过强化受奖励的动作来改善自身的性能。

多任务学习(Multi-task learning)

  • 把多个相关的任务放在一起同时学习。
  • 相关联的多任务学习比单任务学习具备更好的泛化效果。
困难与挑战

困难

  • 数据稀疏性
  • 高数量和高质量标注数据需求
  • 冷启动问题:新产品初期数据不足
  • 泛化能力问题:不全面,不均衡

挑战

  • 模型抽象困难
  • 模型评估困难
  • 寻找最优解困难
  • 容量(核心问题之一),速度,在线学习(更新)
学习过程
  • 数据预处理:数据清洗,数据集成,数据采样

    • 数据清洗:对各种脏数据进行对应方式的处理,得到标准、干净、连续的数据,提供给数据统计、数据挖掘等使用
      • 数据的完整性,数据的唯一性,数据的合法性,数据的权威性,数据的一致性
    • 数据采样:数据不平衡
      • 数据集的类别分布不均,不能反映模型的好坏
      • 解决方法:过采样,欠采样
    • 数据集拆分:训练数据集,验证数据集,测试数据集
      • 常用方法:留出法,K-折交叉验证法(K值通常为10)
  • 特征工程:特征编码,特征选择,特征降维,规范化

    • 特征编码:one-hot编码,语义编码
    • 特征选择方法:过滤法,包裹法,嵌入法
    • 特征降维:主成分分析(PCA),线性判别分析(LDA)
    • 规范化方法:标准化,区间缩放,归一化
  • 数据建模:回归问题,分类问题,聚类问题,其他问题

    • 分类问题:决策树,贝叶斯,支持向量机,逻辑回归,集成学习
    • 回归问题:线性回归,岭回归,Lasso回归
    • 聚类问题:K-means,高斯混合聚类,密度聚类,层次聚类,谱聚类
    • 其他问题:隐马尔可夫模型,LDA主题模型,条件随机场,神经网络深度学习
  • 结果评估:拟合度量,查准率,查全率,F1值,PR曲线,ROC曲线

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值