第一章机器学习基础

第一章机器学习基础

1.1何谓机器学习?

简单的说,机器学习就是把无序的数据转变成有用的信息。如何从海量数据中抽取到有价值的信息将是一个重要的课题。

1.2关键术语

特征(特征有数值型,也有布尔型,自定义的枚举型)
训练集:已知的分类数据,用于训练机器学习算法训练的数据。
目标变量:是机器学习算法的预测结果,在分类算法中通常是离散值类型的,而在回归算法中目标变量通常是连续型的。
为了检测算法的效果,通常使用两套独立的数据集:训练集和测试集。

1.3机器学习的主要任务

两大任务:分类与回归
这两类都属于监督学习:因为这类算法必须知道预测什么,即目标变量的分类信息。
无监督学习:此时数据没有类别信息,也不会给定目标值。它是将数据集合分成由类似对象组成的多个分类过程被称为聚类。将寻找描述数据统计值的过程称为密度估计,此外,无监督学习还可以减少数据特征的维数,可以用二维或三维更好的展示数据。
大致算法用途介绍:
监督学习:
1.k-近邻算法 线性回归
2.朴素贝叶斯算法 局部加权线性回归
3.支持向量机:Ridge回归
4.决策树:Lasso最小回归系数估计
无监督学习
1.k-均值:最大期望算法
2.DBSCAN:parzen窗设计

1.4如何选择合适的算法

上诉很多的算法可以用于解决同一问题:那么如何选择合适的算法呢?
1.如果是要预测目标变量的值,可以使用监督学习算法,若目标变量是离散型数值,则使用分类算法,若目标变量是连续型数值则使用回归算法

2.不是预测目标变量的值,则使用无监督机器学习,若是需要将数据集划分为离散的组,则使用聚类算法,若是还需估计数据与每个分组的相似程度,则需要使用密度估计算法。

3.其次需要考虑的就是数据问题:特征值是离散型变量还是连续型,是否存在缺失值,异常值等。

1.5开发机器学习应用的步骤

1.收集数据:
2.准备输入数据:清洗数据
3.分析输入数据
4.训练算法
5测试算法
6.使用算法

1.6Python语言

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值