Python数据挖掘和解析算法

62 篇文章 5 订阅
11 篇文章 1 订阅

机器学习是计算机科学的一个分支,它利用过去的经验来学习并利用其知识来做出未来的决策。 机器学习是计算机科学、工程和统计学的交叉点。 机器学习的目标是概括一个可检测的模式或从给定的例子中创建一个未知的规则。 机器学习领域的概述如下:

  • 监督学习:这是教机器学习其他变量和目标变量之间的关系,类似于教师向学生提供关于他们表现的反馈的方式。 监督学习的主要部分如下:
    • 分类问题
    • 回归问题
  • 无监督学习:在无监督学习中,算法在没有任何监督或没有提供任何目标变量的情况下自行学习。 这是一个在给定数据中寻找隐藏模式和关系的问题。 无监督学习中的类别如下:
    • 降维
    • 聚类
  • 强化学习:这允许机器或代理根据环境的反馈学习其行为。 在强化学习中,智能体在没有监督的情况下采取一系列决定性的行动,最终将获得 +1 或 -1 的奖励。 基于最终的回报/奖励,代理重新评估其路径。 强化学习问题更接近于人工智能方法,而不是常用的机器学习算法。

在某些情况下,当变量数量非常多时,我们最初执行无监督学习以减少维度,然后进行监督学习。 同样,在一些人工智能应用中,可以利用监督学习与强化学习相结合来解决问题; 一个例子是自动驾驶汽车,其中最初使用监督学习将图像转换为某种数字格式,并结合驾驶动作(向左、向前、向右和向后)。

模型构建和验证的统计基础

统计本身就是一个庞大的问题上,其可以写一本书;然而,这里的尝试是将重点放在机器学习角度非常必要的关键概念上。在本节中,将介绍一些基础知识,其余的概念将在后面的章节中介绍,只要有必要了解机器学习的统计等价物。

预测分析取决于一个主要假设:历史会重演!

通过在验证关键度量后对历史数据拟合预测模型,基于对过去数据具有重要意义的相同解释变量,将使用相同的模型来预测未来事件。

统计模型实施者的先行者是银行业和制药业;在一段时间内,分析也扩展到其他行业。

统计模型是一类数学模型,通常由数学方程指定,这些方程将一个或多个变量与近似现实相关联。统计模型所包含的假设描述了一组概率分布,这将其与非统计、数学或机器学习模型区分开来

统计模型总是从一些基本假设开始,所有变量都应该保持这些假设,然后模型提供的性能在统计上是显着的。因此,了解所有构建模块中所涉及的各种点点滴滴,为成为一名成功的统计学家奠定了坚实的基础。

在下一节中,我们用相关代码描述了各种基础知识:

  • 人口:这是在 总体、完整的观察列表或有关研究对象的所有数据点。

  • 样品:样品 是总体的一个子集,通常是被分析总体的一小部分。

  • 参数与统计量:在总体上计算的任何度量都是参数,而在样本上则称为统计量。

  • 平均值:这是一个简单的算术平均值,它是通过将值的总和除以这些值的计数来计算的。 均值对数据中的异常值很敏感。 离群值是一组或一列的值,它与同一数据中的许多其他值高度偏离; 它通常具有非常高或非常低的值。

  • 中位数:这是数据的中点,通过按升序或降序排列来计算。如果有 N 个观测值。

  • 众数:这是数据中重复最多的数据点:

详情参阅 - 亚图跨际

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值