Python+sklearn机器学习应该了解的33个基本概念

机器学习(Machine Learning)根据已知数据来不断学习和积累经验,然后总结出规律并尝试预测未知数据的属性,是一门综合性非常强的多领域交叉学科,涉及线性代数、概率论、逼近论、凸分析、算法复杂度理论等多门学科。

目前机器学习已经有了十分广泛的应用,例如数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

总体上说,机器学习算法和问题可以分为有监督学习和无监督学习两大类。

在有监督学习中,数据带有额外的属性(例如每个样本所属的类别),必须同时包含输入和输出(也就是特征和目标),通过大量已知的数据不断训练和减少错误来提高认知能力,最后根据积累的经验去预测未知数据的属性。分类和回归属于经典的有监督学习算法。在分类算法中,样本属于两个或多个离散的类别之一,我们根据已贴标签的样本来学习如何预测未贴标签样本所属的类别。如果预期的输出是一个或多个连续变量,则分类问题变为回归问题。

在无监督学习算法中,训练数据包含一组输入向量而没有任何相应的目标值。这类算法的目标可能是发现原始数据中相似样本的组合(称作聚类),或者确定数据的分布(称作密度估计),或者把数据从高维空间投影到二维或三维空间(称作降维)以便进行可视化。

一般地,不会把给定的整个数据集都用来训练模型,而是将其分成训练集和测试集两部分,模型使用训练集进行训练(或学习),然后把测试集输入训练好的模型并评估其表现。另外,大多数模型都有若干参数可以设置,例如支持向量机模型的gamma参数,这些参数可以手动设置,也可以使用网格搜索(grid search)和交叉验证(cross validation)寻找合适的值。

接下来,我们一起了解一下机器学习中常见的几个概念。

阅读原文

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dongfuguo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值