机器学习中的数学:概率统计

本文深入探讨机器学习中的概率统计基础,包括条件概率、贝叶斯公式、随机变量、统计推断和随机过程。通过实例解析,阐述概率统计在机器学习中的重要性和应用,帮助读者构建统计思维,掌握概率模型与Python工具库的实践方法。
摘要由CSDN通过智能技术生成

内容亮点

  • 详解 6 大核心板块:概率思想、随机变量、统计推断、随机过程、采样理论、概率模型,筑牢机器学习核心基础。
  • 教你熟练使用 Python 工具库:依托 NumPy、SciPy、Matplotlib、Pandas 工具,无缝对接工程实践。
  • 有理论还有实战:大量实战案例与完整详细源码,反复加深概率统计思想的深刻理解。

为什么要学习概率统计?

机器学习是一个综合性强、知识栈长的学科,需要大量的前序知识作为铺垫。其中最核心的就是:绝大多数算法模型和实际应用都依赖于以概率统计线性代数微积分为代表的数学理论和思想方法。

《机器学习中的数学》 系列专栏的第一部《概率统计》首先将为大家揭示的,就是与机器学习紧密相关的概率统计核心内容 。

概率统计是利用数据发现规律、推测未知的思想方法。这和机器学习的目标高度一致,机器学习中的思想方法和核心算法大多构筑在统计思维方法之上。本专栏介绍的核心概率思想和基础概念将围绕着条件概率、随机变量、随机过程、极限思想、统计推断、概率图等内容展开。

通过学习本专栏,你可以筑牢机器学习理论和实践的概率统计基础。如果你正在学习概率统计相关知识,本专栏会让你对概率统计产生更浓厚的兴趣、更深层的思考和多角度的认识,同时收获不同于传统教材的思维体验。如果你正在进行数据分析方面的工程实践,本专栏中所着重强调的思维逻辑和处理方法也将会为你提供一种新的视角。

专栏思路与内容大纲

本专栏将围绕以下六大部分展开:

第 1 部分:概率思想。我们首先从条件概率和贝叶斯方法入手,阐明条件、独立、相关等基本概念,掌握联合、边缘的计算方法,我们将一起构建起认知世界的概率思维体系。

第 2 部分:随机变量。我们将重点介绍随机变量主干内容,从单一随机变量的分布过渡到多元随机变量的分析,最后重点阐述大数定理和中心极限定理,并初步接触蒙特卡洛方法,和读者一起建立重要的极限思维。

第 3 部分:统计推断。这部分我们关注的是如何通过部分的样本集合推断出我们关心的总体特征,这在现实世界中非常重要。在参数估计的思想方法基础上,我们重点关注极大似然估计和贝叶斯估计这两种方法。

第 4 部分:随机过程。我们将关注由一组随机变量构成的集合,即随机过程。股票的波动、语音信号、视频信号、布朗运动等都是随机过程在现实世界中的实例。我们在随机过程的基本概念之上,将重点分析马尔科夫链,梳理其由静到动的演变,探索变化的过程和不变的稳态。

第 5 部分:采样理论。我们将重点关注如何获取服从目标分布的近似采样方法,从基本的接受-拒绝采样入手,逐渐深入到马尔科夫链-蒙特卡洛方法,通过动态的过程进一步深化对随机过程、随机理论以及极限思想的理解。

第 6 部分:概率模型。这里我们将介绍概率图模型中的一种典型模型:隐马尔科夫模型,熟悉状态序列的概率估计和状态解码的基本方法,为后续学习的概率图模型打好基础。

avatar

作者介绍

avatar

适宜人群

  • 对人工智能感兴趣的开发者
  • 想入门机器学习的初学者
  • 想加强数学基本功的读者

购买须知

  • 本专栏为图文内容,共计 21 篇。
  • 每周一、三、五更新,预计于 2019 年 11 月 15 日更新完毕。
  • 付费用户可享受文章永久阅读权限。
  • 付费用户可获取读者圈 PASS 权限,与讲师进一步互动。
  • 本专栏为虚拟产品,一经付费概不退款,敬请谅解。
  • 本专栏可在 GitChat 服务号、App 及网页端 gitbook.cn 上购买,一端购买,多端阅读。

订阅福利

  • 本专栏限时特价 29 元,10 月 30 日恢复至原价 49 元。
  • 订购本专栏可获得专属海报,分享专属海报每成功邀请一位好友购买,即可获得 25% 的返现奖励,多邀多得,上不封顶,立即提现。
  • 提现流程:在 GitChat 服务号中点击「我-我的邀请-提现」。
  • 购买本专栏后,可加入读者群交流(入群方式可查看第 3 篇文末说明)。
课程内容
建立统计思维,玩转机器学习

机器学习中,数学为什么重要?

大家好,我是张雨萌,毕业于清华大学计算机系,目前从事自然语言处理相关的研究工作。撰写《机器学习中的数学》系列专栏并和大家一起共同交流学习,是我们准备了很久的一个计划。

当下,机器学习、人工智能领域吸引了许多有志者投身其中,其中包含了大量非科班出身或从其他行业切换赛道转行而来的朋友。大家在学习的过程中经常会感觉学习曲线陡峭、难度较大,而机器学习之所以这么难,首要原因就是数学知识需要得太多了

的确如此,机器学习是一个综合性强、知识栈长的学科,需要大量的前序知识作为铺垫。其中最核心的就是:绝大多数算法模型和实际应用都依赖于以概率统计线性代数微积分为代表的数学理论和思想方法。

比方说吧,如果你想对高维数据进行降维分析,提取和聚焦其主成分,需要的就是线性代数中空间的概念和矩阵分解的技巧;想理解神经网络的训练过程,离不开多元微分和优化方法;想过滤垃圾邮件,不具备概率论中的贝叶斯思维恐怕不行;想试着进行一段语音识别,则必须要理解随机过程中的隐马尔科夫模型;想通过一个数据样本集推测出这类对象的总体特征,统计学中的估计理论和大数定理的思想必须得建立。因此,数学基础是机器学习绕不开的重要阵地

机器学习中,三部分数学知识各自扮演什么角色?

针对这三部分内容,我们将在近期依次推出 《机器学习中的数学:概率统计》《机器学习中的数学:线性代数》《机器学习中的数学:微积分与最优化》 三个专栏。

在进入到概率统计这部分之前,我们先来看看这三部分数学知识在机器学习中各自扮演着什么样的角色,并梳理一下学科的内在逻辑。

第一:概率统计是利用数据发现规律、推测未知的思想方法

「发现规律、推测未知」也正是机器学习的目标,所以两者的目标高度一致。机器学习中的思想方法和核心算法大多构筑在统计思维方法之上。本专栏介绍的核心概率思想和基础概念将围绕着条件概率、随机变量、随机过程、极限思想、统计推断、概率图等内容展开。

第二:线性代数是利用空间投射和表征数据的基本工具

通过线性代数,我们可以灵活地对数据进行各种变换,从而直观清晰地挖掘出数据的主要特征和不同维度的信息。整个线性代数的主干就是空间变换,我们将从构筑空间、近似拟合、相似矩阵、数据降维这四大板块,环环相扣地呈现出与机器学习算法紧密相关的最核心内容。

第三:微积分与最优化是机器学习模型中最终解决方案的落地手段

当我们建立好算法模型之后,问题的最终求解往往都会涉及到优化问题。在探寻数据空间极值的过程中,如果没有微分理论和计算方法作为支撑,任何漂亮的模型都无法落地。因此,夯实多元微分的基本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值