【机器学习】基本概念

1.数据
以一个表格为例子
在这里插入图片描述
整个数据 为数据集
一行为 一个样本
一列为一个特征
最后一列为表达样本的一个特征,也就是标记
在这里插入图片描述
如图 表示的是一个特征空间
而通过两者之间的区别 我们可以进行分类
分类任务的本质就是在特征空间划分
而在高维度的空间同理,一般我们都是通过低维度然后再推广到高纬度。

2.特征可以很抽象
数据点

3.机器学习的基本任务
分类和回归

分类任务可以分二分类和多分类,

二分类,判断是否垃圾邮件,股票涨跌
多分类,数字识别,图像识别,风险评级
多标签分类, 比多分类更复杂的存在

对于多分类来说,很多复杂的问题都可以转换成多分类问题

对于多分类,有一些算法只支持完成二分类,但是多酚类可以转换成二分类任务,有些算法天然可以完成多分类任务

回归任务
结果是一个连续数字的值,而非一个类别
比如 房屋价格,市场分析,学生成绩,股票价格等等
一般来说回归任务可以简化分类任务

对于机器学习,
在这里插入图片描述
根据不同的模型输出的值的不同来判断分类还是回归。

4.监督学习,非监督学习,半监督学习和增强学习

监督学习
给机器的训练数据 拥有标记或者答案

图像已经拥有了标定信息
银行已经积累了一定的客户信息和他们信用卡的信用情况
市场积累了房屋的基本信息和最终成交的金额

大部分算法都属于监督学习

  • k近邻
  • 线性回归和多项式回归
  • 逻辑回归
  • SVM
  • 决策树和随机森林

非监督学习
在这里插入图片描述
给机器的训练数据没有任何标记或者答案

丢与没有标记的数据进行分类 - 聚类划分
在这里插入图片描述
非监督学习的意义
对数据进行降维处理
特征提取: 信用卡的信用评级和人的胖瘦无关
特征压缩:PCA

在这里插入图片描述
划一条直线,整体变成一条直线,变成一维的一点

非监督学习的意义
在这里插入图片描述
降维处理的意义:方便可视化
异常检测
在这里插入图片描述
半监督学习
一部分数据有标记或者有答案,另一部分数据美誉哦
更常见:各种原因产生的标记缺失

通常都先使用无监督学习手段对数据做处理,之后采用监督学习手段做模型的训练和预测

增强学习
根据周围的环境的情况,采取兴趣,根据采取行动的结果,学习行动方式
在这里插入图片描述

机器学习的其他分类
在线学习和批量学习(离线学习),参数学习和非参数学习

批量学习
在这里插入图片描述
优点:简单
适应环境需要定时重新学习,代价大,有时候不能完成时间不够

在线学习
在这里插入图片描述
及时反映新的环境变化,但新的数据可能不准确,需要加强对数据监控,适用于数据量巨大,无法批量学习的环境

参数学习
在这里插入图片描述
做假设,一旦学习到参数就不需要原来的数据集

非参数学习
不对模型机型过多的假设
非参数不等于没参数

5.数据即是算法?
数据驱动很重要,收集更多数据,可以提高数据质量,代表性,特征

6.奥卡姆的剃刀
简单就是好

7.没有免费的午餐定理
任意两个算法,他们的期望性可能是相同的。

具体到某个特定问题,有些算法可能更好
但没有一种算法,绝对比另一种算法豪
脱离具体问题,谈那个蒜贩豪是没有意义的
在面都iyig而具体问题的时候,尝试使用多种算法进行对比试验,是有必要。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值