《数据科学家养成手册》--第十一章算法学2---（非监督，监督贝叶斯概率以及损失函数）

最新推荐文章于 2024-05-28 00:15:00 发布

橘子甜不甜

最新推荐文章于 2024-05-28 00:15:00 发布

阅读量1.3k

点赞数

分类专栏：书目 2018年目标以及每天的完成情况记录

本文链接：https://blog.csdn.net/luolang_103/article/details/80169130

版权

2018年目标以及每天的完成情况记录同时被 2 个专栏收录

120 篇文章 10 订阅

订阅专栏

书目

8 篇文章 0 订阅

订阅专栏

11.8 机器学习-----自动归纳

数据挖掘是随着商务智能发展起来的一种相对比较新的一种算法学科。

只知道自己想学习的是数据挖掘和大数据，但是真的说出个所以然自己真的办不到。现在说是一种算法学科，忽然觉得自己学习那么多的算法还是挺好的。

“挖掘”就是说明一些东西不是在表面，需要进行不断的深度研究，等一系列的工作，从而获得知识。

机器学习也是计算机算法分支的一个学科。以前的算法大都是解决模型上的确定问题，有人直接的进行编写，然后计算机一步步的执行。而机器学习要解决的就是通过设计算法，对输入的数据进行归纳总结，然后根据归纳的结果进行相应的输出。

资料：

机器学习-----有监督，无监督，半监督学习的简单阐释 - CSDN博客
https://blog.csdn.net/luolang_103/article/details/79861257

1.非监督学习

非监督学习是直接对输入的数据进行建模例如聚类，隐马尔可夫模型。（输入数据不做监督，不做标签）

比如经常使用的K-Mean算法

资料2018-3-10 kKNN与K-mean的区别以及各自的Python代码（别人写的好的文章） - CSDN博客
https://blog.csdn.net/luolang_103/article/details/79508426

2.监督学习

（1）监督学习的工作环节：学习，分类

（2）具体的过程就是：

在实际的应用“学习”和“分类”迭代进行，用“分类”的结果验证“学习”的正确性，调整“学习”后，再用不断的“分类”时间来进行验证和反馈调整---------监督学习的完整过程

贝叶斯概率

资料来源：

概率--学习朴素贝叶斯分布 - 彭谨 - 博客园

https://www.cnblogs.com/SCUJIN/p/5927464.html

理解朴素贝叶斯和分类

朴素贝叶斯算法起源于18世纪数学家托马斯·贝叶斯（Thomas Bayes）的工作，贝叶斯发明了用于描述事件在已知的一系列事件发生的情况下发生的概率以及如何根据各种增加的附加信息修正概率的基本数学原理（现称为贝叶斯方法）。

利用贝叶斯算法可以通过已知条件来预测未知发生的事情。如果把已知条件理解为贝叶斯的先验概率分布，需要预测的结局看成是一种分类结果。那么利用贝叶斯算法对样本进行分类就被成为贝叶斯分类。朴素贝叶斯分类器（Naive Bayes classifier），是一种简单有效的常用分类算法。

4.2.1 贝叶斯定理

P(A|B)表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。其基本求解公式为：

更进一步，两件事情同事发生的概率P（AB），实际上等于某一件事情独立发生的概率（P(A)）和在A发生的情况下B发生的概率（P（B|A））的乘积，因此有贝叶斯定理是关于条件概率的定理，其公式如下：

公式中P(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。

P(A)是A的先验概率或边缘概率(Prior probability)。代表着我们想考察事件在自然界中的一般分布。

P(B)是B的先验概率或边缘概率，又称为标准化常量（Normalized constant）。代表着我们已经知道的条件B在自然界当中的一般分布。

P(B|A) 是已知A发生后B的条件概率，叫做似然函数（likelihood）也由于得自A的取值而被称作B的后验概率。代表在已经发生的各种情况中，我们想考察的事件A是否经常伴随着条件B出现。

必须指出，即使事件A经常伴随着条件B出现，也不能说明条件B的出现一定意味着A会出现。因为如果条件B是一种非常常见的现象，那么条件B出现与否和A事件发生的关系也不会太大，因此我们可以将P(B|A)/ P(B)理解为调整因子，也被称为标准化似然度（standardised likelihood）。此时公式可以变为：

贝叶斯推断中有几个关键的概念需要说明下：

第一个是先验概率，先验概率是一种分布，可以理解为我们一般条件下我们认为某件事情是不是经常发生。
第二个是似然函数，似然函数是对某件事发生的可能性的判断，与条件概率正好相反。似然函数是给定某一参数值，求某一结果的可能性。可以理解为以前长期观察得到的两者相关概率。例如：概率是抛一枚匀质硬币，抛10次，问6次正面向上的可能性多大？而似然函数是问抛一枚硬币，抛10次，结果6次正面向上，问其是匀质的可能性多大？
第三个是调整因子：调整因子是似然函数与先验概率的比值，这个比值相当于一个权重，用来调整后验概率的值，使后验概率更接近于真实概率。

后验概率 = 先验概率 × 调整因子

举个例子：

某青年人在参加单位组织的体检时，被检出HIV呈阳性。这自然会让这人感到极度震惊。

假设整个人群感染HIV的概率是0.08%。这家医院使用的检测方法正确率是99%（也就是对已经确诊携带HIV病毒的病人检测出阳性的概率是99%（true positive rate），对没有携带HIV病毒的人检测呈阴性的概率也是是99%（true negative rate））。那么我们用贝叶斯定理可以计算出计算一下小李的患病概率。假设A表示携带HIV病毒事件，B表示检测结果呈阳性事件，那么我们要求解的就是在检测结果呈阳性的情况下的真实患病概率，即 P（A|B）。P(A)表示患病概率，在我们的例子里是0.08%。P(B|A)表示一个人已确诊患病，检测呈阳性的概率是多少，从例子里知道P(B|A)=99%。P(B)表示随机一个人被检测呈阳性的概率是多少，这包括两部分的数据，一部分是患病且被检测呈阳性的概率，它的数值是0.08%×99%，另一部分没患病但被检测呈阳性的概率，它的数值是（1-0.08%）×（1-99%）。根据贝叶斯定理：

=7.34%

从中我们可以看出，如果人群中HIV感染率很低，那么即使是用一种正确率为99%的方法来检测，此人感染了HIV的概率并不高。

而感染概率并不高的原因则是因为我们假设的人群中HIV感染艾滋病的概率仅仅为0.08%。如果我们假设此人属于某个感染率为10%的高危群体，那么此时此人感染的概率就会高达91%。读者不妨可以根据上面的公式自己计算。

同样原理，如果此人为了确诊自己是否真的患病，用同样方法再检测了一次，依然是阳性，那么根据上面的公式：

此时我们可以看出，不做任何其它调查，如果再一次检验同样也是阳性，那么该患者感染了HIV的可能性则会急剧上升到88.9%。因此在临床上我们也经常会看到，对于某些重大疾病的诊断和确诊，增加一次检测，就可以得到准确得多的结果。而通过问诊、查体等一般性的活动，采集一些不能确诊的病案信息，对于最后的确诊也是大有好处。

连续贝叶斯

连续朴素贝叶斯分类的定义如下：

设X={a1,a2,...,am}为一个待分类项目，而每个a为X的一个特征属性值。我们可以把X理解为一个新的病人，我们已经采集到了他的身高，职业，年龄等各种不相关的临床参数。
有分类集合C={y1,y2,...,yn},这个分类集合可以看成病人需要诊断的临床结局，比如可以假定y1=感冒，y2=脑震荡
计算先验概率：P（y1|x),P(y2|x),...,P(yn|x).也就是各种参数在该病人身上的发生概率。也就是条件概率
如果P（yk|x）=max{P（y1|x),P(y2|x),...,P(yn|x)},则x∈yk.
要计算第三步的条件概率，可以通过建立一些已经知道分类情况的样本来形成训练样本集。然后根据公式
来计算条件概率。在这个公式里面Px是发病率，对于所有类别都是常数，所以我们只需要将分子设法最大化皆可。又因为各特征属性是条件独立的。所以有：
也就是说，只需要把特定临床结局下各症状的概率用连乘乘起来，再乘以该特定临床结局的先验分布，就可以获得在特定一系列症状下该临床结局的概率。
贝叶斯分类是所有分类算法中最直观最基础的算法，这种算法本质上是通过已经发生的事件来对未发生的事件进行预测。而当我们把已发生的事件当成人工智能的训练集的时候，根据训练集中的数据分布就有可能对未知样本进行判别。贝叶斯算法不但可以对未知样本的类别进行归类，还可以通过简单的计算给出特定样本属于未知类别的概率，甚至给出样本的每一个特征对于判别的贡献，因此，这种算法有助于人类对于样本的各种数据分布的理解。

回归

Regression是一种通过欧归纳样本特征和分类向量的关系得到模型表达式的过程。常见的回归有线性回归（Linear Regression），非线性回归（Non-Linear Regression）以及逻辑回归（Logistic Regression）

线性回归的表达式：在求解过程中需要不断的优化w和b，通过Loss Function

机器学习中的训练来说 loss Function的设计：

（1）具有明确的统计学或物理解释，能够直观的说明这个值的大小以及误差之间的炼骨哈关系，并且恒为非负数

（2）loss function是否可以通过相对容易的方式进行优化。

常见的损失函数有

（1）绝对值损失函数(absolution Loss Function)

（2）平方损失函数（Squadratic Loss Function）

（3）0-1损失函数（0-1 LossFunction）

（4）对数损失函数（logarithmic Loss Function）

（5）Hinge损失函数（Hinge Loss Function）

注意：在假设样本是高斯分布的条件下，平方损失函数是一个处处可导的凸函数。这种用平方损失函数的方式求解线性回归拟合汇总的待定系数的方法叫做“最小二乘法”

橘子甜不甜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《数据科学家养成手册》--第十一章算法学2---（非监督，监督贝叶斯概率以及损失函数）

11.8 机器学习-----自动归纳数据挖掘是随着商务智能发展起来的一种相对比较新的一种算法学科。只知道自己想学习的是数据挖掘和大数据，但是真的说出个所以然自己真的办不到。现在说是一种算法学科，忽然觉得自己学习那么多的算法还是挺好的。“挖掘”就是说明一些东西不是在表面，需要进行不断的深度研究，等一系列的工作，从而获得知识。机器学习也是计算机算法分支的一个学科。以前的算法大都是解决模型上的确定问题，...
复制链接

扫一扫

专栏目录