机器学习基础：概率和熵

最新推荐文章于 2024-08-13 20:11:45 发布

小羊和小何

最新推荐文章于 2024-08-13 20:11:45 发布

阅读量1.6k

点赞数

分类专栏：机器学习基础文章标签：机器学习先验概率后验概率条件独立性信息熵

本文链接：https://blog.csdn.net/Abner98414/article/details/124972165

版权

1.3.1 实验概率分布（empirical probability）

1.3.2 理论概率分布

1.4 概率模型（Probability models）

1. 概率

1.1 变量类型

其中每一行就是一个 $instance$ 。

每一列就是一个 $attribute$ 。

如果你要对数据进行机器学习任务，那么你就要指定一列数据作为 $label$ 。

因此 $instance = attributes + label$

例子：

要求根据 “姓名”，“年龄”，“身高”，“是否婚恋”，“学历”这些特征来进行预测“月薪”。

那么这个时候“月薪”这一列就是 $label$ ，而其他的列就是 $attributes$ ，很多任务里我们也把 $attributes$ 称为特征， $labels$ 叫做标签。

张三以及张三所有的信息称为一条 $instance$ 也叫一条数据。

根据 $attributes$ 中数据类型的不同，我们可以把他们分为：

$Nomial/categorial$ ：

通过名称来区分类型，例如“张三”，“李四”这些变量互相之间没有任何关系；这些变量之间也不存在顺序关系，他们相互之间是 $equally \: \: dissimilar$ 的。 $boolean$ 类型是一类特殊的 $nomial \: \: variable$ 。

$Ordinal$ ：

变量值是离散的，而且不同的变量值之间存在天然的顺序，数学运算通常没有意义。例如酒店评级，三星，五星；其中 $3,5$ 是离散的值，但是不能进行数学运算，因为 $3$ 星 $+ 5$ 星 $= 8$ 星，但是这违背了数据本身的意义，加完之后就变成了没有意义的数据。

$Continuous$ （ $numerical$ ）：

变量值本身是实数，没有明显的数据边界，例如：距离，时间，价格；两个值之间是连续的，可以进行有意义的数学运算，例如 $3m + 5m = 8m$ 。

$equally \: \: dissimilar$ ：

等同差异，那么什么是不等同差异呢，比如当我们做分类任务的时候我们区分猫、狗、人，猫和狗之间的差异与人和狗之间的差异显然是不一样的，虽然猫和狗不同，人也和狗不同，但是这种’不同’ 仍然不是等价的。而这个时候（猫或狗或人的）名字之间虽然不同，但是这种不同我们可以认为是 $equally$ 的，这个名字属性并不会对分类这个任务产生任何影响，换句话说，就算你换了一个名字，依然不影响分类任务。但换到另外一类任务中，可能名字就不是 $equally \: \: dissimilar$ 的了。