机器学习(1.机器学习概述、数据集的组成以及机器学习的特征工程)

什么是机器学习?

   机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测

  为什么需要机器学习

  解放生产力、解决专业问题、提供社会便利

机器学习应用场景

自然语言处理、无人驾驶、计算机视觉、推荐系统、、、

  机器学习在各领域带来的价值

  领域:医疗、航空、教育、物流、电商。。。。

  目的: 让机器学习程序替换手动的步骤,减少企业的成本也提高企业的效率

 机器学习的数据集组成

1.数据来源,以及存放方式

 从历史数据当中获取规律?这些历史数据是怎么样的格式?

     1.大多数以文件的形式  (csv文件..), 因为mysql有性能瓶颈、读取速度遭到限制,数据大的时候很费时间

     2. 格式不太符合机器学习要求的数据格式

2.读取数据的工具

     Python中很强大的模块  pandas:读取工具、numpy(数据计算模块,计算速度非常快,因为释放了Python中的GIL)

3.可用数据集

Kaggle特点:1、大数据竞赛平台     2、80万科学家    3、真实数据      4、数据量巨大

UCI特点:1、收录了360个数据集    2、覆盖科学、生活、经济等领域       3、数据量几十万

scikit-learn特点:1、数据量较小  2、方便学习

网址:

Kaggle网址:https://www.kaggle.com/datasets

UCI数据集网址: http://archive.ics.uci.edu/ml/

scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets

4.特征值-目标值

 特征值: 就是DataFrame中的列索引,

 目标值: 很据特征值得到的结果值,就为目标值,(就是想要做的事情的目的的分类)

特征工程

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性

特征工程的意义

    •直接影响模型的预测结果

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

还是那个同伟伟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值