机器学习实战——机器学习基础

  • 何为机器学习
    机器学习就是把无序的数据转换成有用的信息。
  • 关键术语
    1. 属性(特征):从各个方面描述一个事物,这些方面称作属性或者叫特征
    2. 训练集:用于训练机器学习算法的数据样本集合
    3. 目标变量:机器学习的结果
  • 主要任务
    机器学习主要分为监督学习和无监督学习,监督学习必须知道即将预测的标称变量是什么,如分类和回归。无监督学习数据没有类别信息,也不会给定目标值,主要包括聚类,密度估计等。
    监督学习:分类和回归,分类主要处理目标变量为标称型(有限个离散型)的任务,回归主要用于预测数值型数据(连续型),例如:数据拟合曲线,通过给定数据点的最优拟合曲线。
    无监督学习:聚类和密度估计,聚类指将数据集合分成由类似的对象组成的多个类的过程。密度估计指寻找描述数据统计值的过程。
监督学习的用途
算法用途
k-近邻算法线性回归
朴素贝叶斯算法局部加权线性回归
支持向量积Ridge回归
决策树Lasson最小回归系数估计
无监督学习的用途
算法用途
k-均值最大期望算法
DBSCANParzen窗设计
  • 算法选择
    选择合适的算法,需要考虑两个问题:
    一、使用机器学习算法的目的,想要算法完成何种任务,如果想要预测目标变量的值,则可以选择监督学习算法,否则选择无监督学习算法。确定选择监督学习算法后,需要进一步确定目标变量类型,如果目标变量时离散型则可以选择使用分类算法,如果目标变量时连续性的数值,则可以选择回归算法。确定选择无监督学习算法后,进一步分析是否需要将数据划分为离散的组,如果这是唯一的需求则使用聚类算法,如果还需要估计数据与每个分组的相似度,子需要使用密度估计算法。
    二、需要分析或收集的数据是什么
    主要了解数据以下特性:特征值是离散型变量还是连续性变量,特征值是否存在缺失的值,何种原因造成缺失值,数据中是否存在异常值,某个特征发生的频率等。

  • 开发过程

    1. 收集数据。
    2. 准备输入数据
    3. 分析输入数据
    4. 训练算法
    5. 测试算法
    6. 使用算法
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值