机器学习实战——机器学习基础

最新推荐文章于 2023-08-19 12:01:17 发布

czliuming

最新推荐文章于 2023-08-19 12:01:17 发布

阅读量707

点赞数

分类专栏： BigData 文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/czliuming/article/details/51024108

版权

BigData 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

何为机器学习
机器学习就是把无序的数据转换成有用的信息。
关键术语
1. 属性（特征）：从各个方面描述一个事物，这些方面称作属性或者叫特征
2. 训练集：用于训练机器学习算法的数据样本集合
3. 目标变量：机器学习的结果
主要任务
机器学习主要分为监督学习和无监督学习，监督学习必须知道即将预测的标称变量是什么，如分类和回归。无监督学习数据没有类别信息，也不会给定目标值，主要包括聚类，密度估计等。
监督学习：分类和回归，分类主要处理目标变量为标称型（有限个离散型）的任务，回归主要用于预测数值型数据（连续型），例如：数据拟合曲线，通过给定数据点的最优拟合曲线。
无监督学习：聚类和密度估计，聚类指将数据集合分成由类似的对象组成的多个类的过程。密度估计指寻找描述数据统计值的过程。

监督学习的用途

算法	用途
k-近邻算法	线性回归
朴素贝叶斯算法	局部加权线性回归
支持向量积	Ridge回归
决策树	Lasson最小回归系数估计

无监督学习的用途

算法	用途
k-均值	最大期望算法
DBSCAN	Parzen窗设计

算法选择
选择合适的算法，需要考虑两个问题：
一、使用机器学习算法的目的，想要算法完成何种任务，如果想要预测目标变量的值，则可以选择监督学习算法，否则选择无监督学习算法。确定选择监督学习算法后，需要进一步确定目标变量类型，如果目标变量时离散型则可以选择使用分类算法，如果目标变量时连续性的数值，则可以选择回归算法。确定选择无监督学习算法后，进一步分析是否需要将数据划分为离散的组，如果这是唯一的需求则使用聚类算法，如果还需要估计数据与每个分组的相似度，子需要使用密度估计算法。
二、需要分析或收集的数据是什么
主要了解数据以下特性：特征值是离散型变量还是连续性变量，特征值是否存在缺失的值，何种原因造成缺失值，数据中是否存在异常值，某个特征发生的频率等。
开发过程
1. 收集数据。
2. 准备输入数据
3. 分析输入数据
4. 训练算法
5. 测试算法
6. 使用算法

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战——机器学习基础

何为机器学习机器学习就是把无序的数据转换成有用的信息。关键术语属性（特征）：从各个方面描述一个事物，这些方面称作属性或者叫特征训练集：用于训练机器学习算法的数据样本集合目标变量：机器学习的结果主要任务机器学习主要分为监督学习和无监督学习，监督学习必须知道即将预测的标称变量是什么，如分类和回归。无监督学习数据没有类别信息，也不会给定目标值，主要包括聚类，密度估计等。监督学习：
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。