（用Python实现）数据科学中的常见的6种概率分布

最新推荐文章于 2023-06-20 11:36:56 发布

Python-Jack

最新推荐文章于 2023-06-20 11:36:56 发布

阅读量699

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qfluohao/article/details/105563382

版权

1dc90c95c26c453285d17ef5047b3c12 转存失败重新上传取消（用Python实现）数据科学中的常见的6种概率分布

介绍

拥有良好的统计背景对于数据科学家的日常工作可能会大有裨益。每次我们开始探索新的数据集时，我们首先需要进行探索性数据分析（EDA），以了解某些特征的概率分布是什么。如果我们能够了解数据分布中是否存在特定模式，则可以量身定制最适合我们的机器学习模型。这样，我们将能够在更短的时间内获得更好的结果（减少优化步骤）。实际上，某些机器学习模型被设计为在某些分布假设下效果最佳。因此，了解我们正在使用哪个概率分布可以帮助我们确定最适合使用哪些模型。

不同类型的数据

每次我们使用数据集时，我们的数据集都会代表总体的样本。然后使用这个样本，我们可以尝试了解其概率分布，以便我们可以使用它对总体进行预测。

假设我们要根据一组数据来预测房屋的价格，我们可以找到一个包含旧金山所有房价的数据集（我们的样本），进行一些统计分析之后，我们就可以对美国其他任何城市的房价做出相当准确的预测（我们的总体）。

数据集由两种主要类型的数据组成：数值（例如整数，浮点数）和标签（例如名字，电脑品牌）。

数值数据还可以分为其他两类：离散和继续。离散数据只能采用某些值（例如，学校中的学生人数），而连续数据可以采用任何实际或分数值（例如，身高和体重的概念）。

从离散随机变量中，可以计算出概率质量函数，而从连续随机变量中，可以得出概率密度函数。

概率质量函数给出了变量可以等于某个值的概率，概率密度函数的值本身并不是概率，需要在给定范围内进行积分。

自然界中存在许多不同的概率分布，在本文中，我将向大家介绍数据科学中最常用的概率分布。

f42a00c0e8fa4eeaa858d02bc8a16316 转存失败重新上传取消（用Python实现）数据科学中的常见的6种概率分布

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
（用Python实现）数据科学中的常见的6种概率分布

转存失败重新上传取消介绍拥有良好的统计背景对于数据科学家的日常工作可能会大有裨益。每次我们开始探索新的数据集时，我们首先需要进行探索性数据分析（EDA），以了解某些特征的概率分布是什么。如果我们能够了解数据分布中是否存在特定模式，则可以量身定制最适合我们的机器学习模型。这样，我们将能够在更短的时间内获得更好的结果（减少优化步骤）。实际上，某些机器学习模型被设计为在某些分布假设下效果最...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。