机器学习中的一些基本概念

一.关于数据:

  1. 著名的鸢尾花数据:数字化(名称采用0,1,2…代替)。
    数据集(data set):数据的整体(可以看作一个矩阵X)。
    样本(sample):每行数据表示一个样本(第i个样本X上角标i)。
    特征(feature):每一列表达样本的一个特征(第i个特征X下角标i)。
    标记(lable):最后一列,用y表示,看作一个向量。
  2. 数据的表示:
    特征空间(feature space):在空间中的点表示一个样本,有几个特征就是几维特征空间。
    $分类任务的本质就是特征空间切分。
    $特征可以很抽象,例如图像识别:每一个像素点都是特征,28*28=784个特征。如果彩色图像特征就很多。
    深度学习可以理解为算法在自动的进行特征工程。而特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征。

二.机器学习的基本任务

  1. 分类任务:
    (1).二分类任务:判断图片是猫还是狗,判断是否为垃圾邮件等等
    (2).多分类任务:手写数字识别,图像识别,银行的风险等级评估等等
    注:一些算法只支持二分类任务,但是多分类的任务可以转换为二分类任务,有一些算法天然可以完成多分类任务。
    多标签任务:分出一张图片是两个人,人拿物体等情况,而非一个人,一个物品等单一目标情况
  2. 回归任务:结果是一个连续数字的值,而非类别。
    预测房屋价格,市场分析,学生成绩,股票价格
    有些算法只能解决回归问题,有的只能解决分类问题,有的都可以结局
    有的回归任务可以演变成分类任务,例如无人驾驶

三.机器学习

机器学习就是通过向机器学习算法中输入大量的学习资料(样本),然后产出一个函数f(x),x即代表一个样本,就可以得到一个结果。结果试一个类别,就是一个分类问题,如果是一串数字,就是回归问题。

四.机器学习的算法分类

  1. 监督学习:给机器学习的训练数据拥有“标记”或“答案”,处理分类和回归任务。

  2. 非监督学习:给机器学习的训练数据没有“标记”或“答案”。
    (1).聚类分类:对没有标记的数据进行分类,如电商对一些消费者分类。
    (2).对数据进行降维处理:
    ¥特征提取:去除与目标无关的特征,如信用卡的评级和人的胖瘦无关。
    ¥特征压缩:在尽量少的算是信息的情况下,将高维的特征向量压缩为低维的特征向量,这样可以提高运行效率。,但并不影响准确率。如PCA算法,如28*28的图片识别拥有784个特征,但是可以采用特征压缩降至十几个特征
    ¥方便可视化:人类对于三维以上的数据不可视。
    ¥异常检测:低维的可以依靠人直接去除,而高维的数据需要用非监督学习去除异常点。

  3. 半监督学习:一部分数据有标记,另一部分数据没有。各种原因产生的缺失。
    ¥通常都是先通过无监督学习手段对数据进行处理,然后在使用监督学习手段做模型的训练和测试。

  4. 增强学习:根据周围的环境采取行动,根据采取行动的结果,学习行动方式。适合于无人驾驶,机器人,阿尔法狗等

五.机器学习的其他分类:

  1. 批量学习
    简单,但是不能适应环境的变化。解决方案:定时的进行批量学习。每天重新进行批量学习,运算量巨大。这在某些环境中不能实现,如股市。
  2. 在线学习
    及时反映新的环境的变化。新的数据带来不好的变化(对手错误的使用产生一些错误的数据)。这可以听过加强数据的监控来解决。适用于数据量巨大,无法批量学习的。
  3. 参数学习
    一旦学到了参数,就不再需要原有的数据集。可以通过参数计算出数据。
  4. 非参数学习
    不对模型进行假设,非参数不等于没参数。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值