机器学习学习笔记一:

第一章: 机器学习入门

​ 主要理解机器学习的应用场景,以及如何以机器学习的方式来处理现实问题。

一、机器学习发展历程

​ 达特摩斯会议 Dartmouth。 2018图灵奖。

二、什么是人工智能

​ 应用场景:传统预测、图像识别、自然语言处理。

​ 人工智能、机器学习、深度学习 。

三、机器学习算法分类

​ 样本由特征值和目标值组成,特征值为样本的特征属性,目标值为样本的目标分类。

​ 按照目标值进行分类:

​ 1、目标值为离散的类别: 分类问题

​ 2、目标值为连续数值:回归问题

​ 3、没有目标值:无监督学习

四、机器学习一般开发流程

​ 方法:

​ 1、获取数据: 确定数据源与处理目标。

​ 2、数据处理: 数据ETL。

​ 3、特征工程: 最能决定机器学习效果的地方。大多数竞赛的效果差别来源。

​ 4、机器学习算法训练: 选择合适的算法及超参数。

​ 5、模型评估:一般将数据集拆分成训练集与测试集来评估模型的效果。对算法和超参数进行调整。理解 过拟合 和 欠拟合

​ 欠拟合:学习力度不够,加大数据量以及增加学习轮数。

​ 过拟合:模型泛化能力不够,在训练集上表现良好,而在测试集上表现不够。

​ 过拟合永远会存在,只是通过校正尽量减少过拟合的影响。

​ 6、模型应用:评估、预测

​ 概念共识: 往往数据和目标就决定了机器学习的效果上限,而技术手段只是让模型更逼近这个上限。

五、学习框架和资料介绍

​ python: sklearn,spark

​ java+scala: spark

​ 基础知识:数学、统计学

​ 经典教程:机器学习-周志华(西瓜书) , 深度学习(花书)

​ 建议的学习路线:

​ 1、快速上手,照本敲代码,搞明白机器学习干嘛的。

​ 2、用常用公共数据集做一些模型训练。

​ 3、尝试解决实际问题: kaggle

​ 4、深入底层,跟踪业界最新技术。

六、可用数据源

​ 往往数据的数量和质量就决定了机器学习的效果。因此数据源相当重要。

​ 1、数据来源:公司内部数据,网络爬虫,数据接口(花钱)

​ 2、学习阶段数据源: iris(鸢尾花) ,boston(波士顿房价)

​ 1>sklearn 自带少量数据源 , spark,示例中自带少量数据源。

​ 2> kaggle 数据建模竞赛

​ 3> UCI http://archive.ics.uci.edu/ml/datasets.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

roykingw

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值