网易微专业_Python数据分析师 01 数据思维导论:如何从数据中挖掘价值?

机器学习的应用场景

图像识别、语音识别、自然语言处理、证券市场分析

一、机器学习是什么

    机器学习是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的方法。

机器学习的划分:

    1、监督学习

    知道所有特征集的属性并且知道每一条特征所对应的种类。

    2、非监督学习

    知道特征集,但是不知道每条特征集对应的种类。(一般用作相似性分析之类的)

    3、半监督学习

    知道部分特征对应的种类。

    4、强化学习

    强化学习不再区分未知数据和训练数据,而是统一为数据。并且由于没有训练集也就没有目标,而是预测结果会产生奖励反馈给算法。数据也同样提交给算法,然后算法对模型进行更新。

二、机器学习问题类型的划分

    分类、回归和聚类。

三、机器学习是什么形式的

    1、数据预处理

    (1)数据预处理的目的

        a、将数据整理为模型可以处理的格式

        b、将质量差的数据进行整理,使得模型可以有效的学到更好的效果

    (2)常用的数据预处理方法

        a、缺失值处理

   

    在很多场景中,不可避免的会遇到数据出现缺失值的问题。

    (3)标准化

    不同的特征的大小范围是不一样的,将特征标准化,也便于不同单位或量级的指标能够进行比较和加权。

    2、特征工程

    (1)采取特征工程的原因

    数据属性过多,例如图像数据,图像大小可能是1024*768,80万左右的特征,显然这么多特征并不是完全需要的。

    (2)特征选择

    a、过滤式

    主动去除一些特征。

    b、包裹式

    提取出部分作为特征。

    c、嵌入式

    不处理数据,而是通过其他方法将特征对结果的影响降为0。

    (3)特征生成

    从已有特征中提取主要信息,生成新的特征。

    3、模型选择

    训练不同模型,然后对不同模型评分进行选择。

    4、模型训练

    5、模型评价

    过拟合的概念:

    (1)评价指标

    (2)评价方法

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值