机器学习学习笔记一：

最新推荐文章于 2023-12-27 17:57:27 发布

roykingw

最新推荐文章于 2023-12-27 17:57:27 发布

阅读量179

点赞数

分类专栏：大数据相关文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/roykingw/article/details/88874912

版权

大数据相关专栏收录该内容

33 篇文章 14 订阅

订阅专栏

第一章：机器学习入门

主要理解机器学习的应用场景，以及如何以机器学习的方式来处理现实问题。

一、机器学习发展历程

达特摩斯会议 Dartmouth。 2018图灵奖。

二、什么是人工智能

应用场景：传统预测、图像识别、自然语言处理。

人工智能、机器学习、深度学习。

三、机器学习算法分类

样本由特征值和目标值组成，特征值为样本的特征属性，目标值为样本的目标分类。

按照目标值进行分类：

1、目标值为离散的类别：分类问题

2、目标值为连续数值：回归问题

3、没有目标值：无监督学习

四、机器学习一般开发流程

方法：

1、获取数据：确定数据源与处理目标。

2、数据处理：数据ETL。

3、特征工程：最能决定机器学习效果的地方。大多数竞赛的效果差别来源。

4、机器学习算法训练：选择合适的算法及超参数。

5、模型评估：一般将数据集拆分成训练集与测试集来评估模型的效果。对算法和超参数进行调整。理解过拟合和欠拟合

欠拟合：学习力度不够，加大数据量以及增加学习轮数。

过拟合：模型泛化能力不够，在训练集上表现良好，而在测试集上表现不够。

过拟合永远会存在，只是通过校正尽量减少过拟合的影响。

6、模型应用：评估、预测

概念共识：往往数据和目标就决定了机器学习的效果上限，而技术手段只是让模型更逼近这个上限。

五、学习框架和资料介绍

python: sklearn,spark

java+scala: spark

基础知识：数学、统计学

经典教程：机器学习-周志华(西瓜书) ，深度学习(花书)

建议的学习路线：

1、快速上手，照本敲代码，搞明白机器学习干嘛的。

2、用常用公共数据集做一些模型训练。

3、尝试解决实际问题： kaggle

4、深入底层，跟踪业界最新技术。

六、可用数据源

往往数据的数量和质量就决定了机器学习的效果。因此数据源相当重要。

1、数据来源：公司内部数据，网络爬虫，数据接口(花钱)

2、学习阶段数据源： iris(鸢尾花) ,boston(波士顿房价)

1>sklearn 自带少量数据源， spark，示例中自带少量数据源。

2> kaggle 数据建模竞赛

3> UCI http://archive.ics.uci.edu/ml/datasets.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习学习笔记一：

第一章：机器学习入门主要理解机器学习的应用场景，以及如何以机器学习的方式来处理现实问题。一、机器学习发展历程达特摩斯会议 Dartmouth。 2018图灵奖。二、什么是人工智能应用场景：传统预测、图像识别、自然语言处理。人工智能、机器学习、深度学习。三、机器学习算法分类样本由特征值和目标值组成，特征值为样本的特征属性，目标值为样本的目标分类。按照目...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

roykingw 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。