机器学习相关基础概念（基本术语）

最新推荐文章于 2023-03-21 09:18:40 发布

karmalk

最新推荐文章于 2023-03-21 09:18:40 发布

阅读量597

点赞数 1

分类专栏： python机器学习之路文章标签：机器学习算法

本文链接：https://blog.csdn.net/karmacode/article/details/78674494

版权

python机器学习之路专栏收录该内容

16 篇文章 5 订阅

订阅专栏

机器学习主要任务是分类
机器学习算法有很多，最终决定使用某个机器学习算法进行分类首先要做的是算法训练
训练集：为算法输入的大量已分类数据是用于训练及其学习算法的数据集合
训练集中有特征和目标变量
特征或者属性通常是训练样本集的列，他是独立测量的结果，多个特征联系在一起共同组成的一个训练样本。
目标变量：机器学习算法的预测结果。
机器学习的另一项任务是回归（主要用于预测数值型数据）

分类和回归都是监督学习
聚类属于无监督学习：其中数据没有类别信息，不会给定目标值，
在无监督学习中，将数据集合分成由类似对象组成的多个类的过程就是聚类
监督学习的用途:

 1. k-近邻算法（kNN）    线性回归
 2. 朴素贝叶斯算法       局部加权线性回归
 3. 支持向量机（SVM）    Ridge回归
 4. 决策树              Lasso最小回归系数分析

无监督学习的用途：

 1. K-均值（k-means）    最大期望算法
 2. DBSCAN              Parzen窗设计

选择合适的算法：
目标变量是离散型的选择分类算法
目标变量是连续型的选择回归算法
不想预测目标变量的值选择无监督学习算法
分析是否将数据划分为离散的组，使用聚类算法
估计数据与每个分组的相似程度使用密度估计算法

考虑数据问题：
特征值是离散型变量还是连续型变量。
特征值中是否存在缺失值，什么原因造成缺失值，是否存在异常值
某个特征发生的频率如何

开发及其学习应用程序的步骤

收集数据
准备输入数据
分析输入数据
训练算法
测试算法
使用算法

karmalk

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录