第一章机器学习基础

最新推荐文章于 2024-09-29 11:42:14 发布

tracydragonlxy

最新推荐文章于 2024-09-29 11:42:14 发布

阅读量195

点赞数

分类专栏：机器学习文章标签：机器学习 python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tracydragonlxy/article/details/83024254

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

第一章机器学习基础

1.2 关键术语

训练集是用于训练机器学习算法的数据样本集合。

目标变量是机器学习算法的预测结果，在分类算法中目标变量的类型通常是标称型的，而在回归算法中通常是连续型的。

类别：分类问题中的目标变量，分类问题只存在有限个数的类别。

注意特征或者属性通常是训练样本集的列，它们是独立测量得到的结果，多个特征联系在一起共同组成一个训练样本。

1.3 机器学习的主要任务

分类：是将实例数据划分到合适的分类中。
回归：要用于预测数值型数据。

监督学习：分类和回归归属于监督学习，之所以称之为监督学习，是因为这类算法必须知道预测什么，即目标变量的分类信息。

无监督学习:数据没有类别信息，也不会给定目标值。
将数据集合分成由类似的对象组成的多个类的过程被称为聚类；
将寻找描述数据统计值的过程称之为密度估计。

1.4 如何选择合适的算法

（一）首先考虑使用机器学习算法的目的

如果想要预测目标变量的值，则可以选择监督学习算法，否则可以选择无监督学习算法。确定选择监督学习算法之后，需要进一步确定目标变量类型，如果目标变量是离散型，如是/否、1/2/3、A/B/C或者红/黄/黑等，则可以选择分类器算法；如果目标变量是连续型的数值，如0.0～100.00、-999～999或者+∞～-∞等，则需要选择回归算法。

如果不想预测目标变量的值，则可以选择无监督学习算法。进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求，则使用聚类算法；如果还需要估计数据与每个分组的相似程度，则需要使用密度估计算法。

（二）其次需要考虑的是数据问题

主要应该了解数据的以下特性：特征值是离散型变量还是连续型变量，，特征值中是否存在缺失的值，何种原因造成缺失值，数据中是否存在异常值，某个特征发生的频率如何（是否罕见得如同海底捞针），等等。

1.5 开发机器学习应用程序的步骤

收集数据；
准备输入数据；
分析输入数据：是确保数据集中没有垃圾数据。
训练算法；
测试算法；
使用算法。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。