Python朴素贝叶斯预测
Python朴素贝叶斯 1
大纲
朴素贝叶斯预测原理及其算法应用场景
Python贝叶斯实现
Python机器学习应用
Python朴素贝叶斯 2
机器学习和大数据
机器学习算法已经广泛应用于大数据处理领域
在具体处理大数据任务时,随着机器学习社区的发展和实践验证,机
器学习的算法应用获得了更多社区力量的支持、改进和推广
以最广泛的分类算法为例,大致可以分为线性和非线性两大方向。
Python朴素贝叶斯 3
机器学习
线性算法有著名的逻辑回归、朴素贝叶斯、最大熵等
线性算法的优点是训练和预测的效率比较高,但最终效果对特征的
依赖程度较高,需要数据在特征层面上是线性可分的。
因此,使用线性算法需要在特征工程上下不少功夫,尽量对特征进
行选择、变换或者组合等使得特征具有区分性。
非线性算法有随机森林、决策树、神经网络、核机器等。
非线性算法的优势是可以建模复杂的分类面,从而更好的拟合数据。
Python朴素贝叶斯 4
Python scikit-learn机器学习算法库
目前使用Python写机器学习算法比较多
为了不从造轮子开始,在项目应用中,Python提供了Scikit-learn这个
机器学习算法库,属于本领域最好的算法库之一
Python 这个库优点很多:简单易用,接口抽象得非常好,不仅仅
是结构化的数值数据,文本文档处理的支持也很好
Python朴素贝叶斯 5
朴素贝叶斯的应用场景
朴素贝叶斯是一种用于分类问题的机器学习算法。
可用于涉及高维训练数据集的文本分类。
分类问题是监督学习问题的示例。它有助于从一组类别中识别新观
察的类别(子群体)。该类别是基于包含其类别成员已经已知的观
察(或实例)的数据的训练集合来确定的。
几个相关的例子有:垃圾邮件过滤、情感分析和新闻文章分类。
朴素贝叶斯因简单、有效性而闻名。
它能快速构建模型和使用朴素贝叶斯算法进行预测。
朴素贝叶斯是用于解决文本分类问题的有效算法。
Python朴素贝叶斯 6
朴素贝叶斯的“朴素”
朴素贝叶斯算法是学习具有属于特定组/类的某些特征的对象的概率
的算法。简而言之,它是一个概率分类器。
朴素贝叶斯算法被称为 “朴素”是因为它假设某个特征的出现与其它
特征的出现是独立的
例如,如果你试图根据其颜色,形状和味道识别水果,那么橙色的、
球形的和味道浓烈的水果很可能是橘子。
即使这些特征依赖于彼此或取决于其他特征的存在,所有这些特性
可以单独地促成该果实是橙色的可能性,这就是为什么它被称为
“朴素的”。
Python朴素贝叶斯 7
朴素贝叶斯理论
朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个
贝叶斯公式,贝叶斯公式的基本定义如下:
这个公式它却能总结历史,预知未来。
公式的右边是总结历史,公式的左边是预知未来
如果把Y作为类别,X表示特征,P(Yk|X)就是在已知特征X的情况下
求Yk类别的概率,而P(Yk|X)的计算又转化到类别Yk的特征分布上来
Python朴素贝叶斯 8
朴素贝叶斯算法的贝叶斯定理
在机器学习的分类问题,有多种特征和类,比如C1 ,C2 ,……,Ck ,
朴素贝叶斯算法的主要目的是计算具有特征向量X1 ,X2 ,……,Xn ,
属于特定类Ci的事