Python数据挖掘和解析算法

亚图跨际

已于 2022-04-25 17:53:44 修改

阅读量230

点赞数

分类专栏： Python 机器学习数值处理文章标签： Python数据挖掘

于 2021-07-13 17:42:06 首次发布

本文链接：https://blog.csdn.net/jiyotin/article/details/118706790

版权

323 篇文章 24 订阅

订阅专栏

62 篇文章 5 订阅

订阅专栏

11 篇文章 1 订阅

订阅专栏

机器学习是计算机科学的一个分支，它利用过去的经验来学习并利用其知识来做出未来的决策。机器学习是计算机科学、工程和统计学的交叉点。机器学习的目标是概括一个可检测的模式或从给定的例子中创建一个未知的规则。机器学习领域的概述如下：

监督学习：这是教机器学习其他变量和目标变量之间的关系，类似于教师向学生提供关于他们表现的反馈的方式。监督学习的主要部分如下：
- 分类问题
- 回归问题
无监督学习：在无监督学习中，算法在没有任何监督或没有提供任何目标变量的情况下自行学习。这是一个在给定数据中寻找隐藏模式和关系的问题。无监督学习中的类别如下：
- 降维
- 聚类
强化学习：这允许机器或代理根据环境的反馈学习其行为。在强化学习中，智能体在没有监督的情况下采取一系列决定性的行动，最终将获得 +1 或 -1 的奖励。基于最终的回报/奖励，代理重新评估其路径。强化学习问题更接近于人工智能方法，而不是常用的机器学习算法。

在某些情况下，当变量数量非常多时，我们最初执行无监督学习以减少维度，然后进行监督学习。同样，在一些人工智能应用中，可以利用监督学习与强化学习相结合来解决问题；一个例子是自动驾驶汽车，其中最初使用监督学习将图像转换为某种数字格式，并结合驾驶动作（向左、向前、向右和向后）。

统计本身就是一个庞大的问题上，其可以写一本书；然而，这里的尝试是将重点放在机器学习角度非常必要的关键概念上。在本节中，将介绍一些基础知识，其余的概念将在后面的章节中介绍，只要有必要了解机器学习的统计等价物。

预测分析取决于一个主要假设：历史会重演！

通过在验证关键度量后对历史数据拟合预测模型，基于对过去数据具有重要意义的相同解释变量，将使用相同的模型来预测未来事件。

统计模型实施者的先行者是银行业和制药业；在一段时间内，分析也扩展到其他行业。

统计模型是一类数学模型，通常由数学方程指定，这些方程将一个或多个变量与近似现实相关联。统计模型所包含的假设描述了一组概率分布，这将其与非统计、数学或机器学习模型区分开来

统计模型总是从一些基本假设开始，所有变量都应该保持这些假设，然后模型提供的性能在统计上是显着的。因此，了解所有构建模块中所涉及的各种点点滴滴，为成为一名成功的统计学家奠定了坚实的基础。

在下一节中，我们用相关代码描述了各种基础知识：

人口：这是在总体、完整的观察列表或有关研究对象的所有数据点。
样品:样品是总体的一个子集，通常是被分析总体的一小部分。
参数与统计量：在总体上计算的任何度量都是参数，而在样本上则称为统计量。
平均值：这是一个简单的算术平均值，它是通过将值的总和除以这些值的计数来计算的。均值对数据中的异常值很敏感。离群值是一组或一列的值，它与同一数据中的许多其他值高度偏离；它通常具有非常高或非常低的值。
中位数：这是数据的中点，通过按升序或降序排列来计算。如果有 N 个观测值。
众数：这是数据中重复最多的数据点：

详情参阅 - 亚图跨际

关注

专栏目录