【机器学习】机器学习（一）——基于概率论的分类

最新推荐文章于 2024-07-20 16:09:18 发布

大数据分析BDA

最新推荐文章于 2024-07-20 16:09:18 发布

阅读量3k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/shandianke/article/details/43496921

版权

本文介绍了机器学习的基础概念，特别关注了从概率论的角度理解分类问题。通过讲解贝叶斯定理及其在机器学习中的应用，阐述了如何利用概率模型进行预测。读者将学习到如何将概率理论应用于构建简单的分类器，并理解其工作原理。

摘要由CSDN通过智能技术生成

一. 分类的概率论基础

贝叶斯分类准则为：

★如果

，那么属于类别

★如果

，那么属于类别

应用贝叶斯准则：

可以通过已知的三个概率值来计算未知的概率值。

二. 用朴素贝叶斯进行文档分类

使用朴素贝叶斯分类的一般过程为：

①收集数据：可以使用任何方法

②准备数据：需要数值型或布尔型数据

③分析数据：有大量特征时，绘制特征作用不大，使用直方图效果更好

④训练算法：计算不同独立特征的条件概率

⑤测试算法：计算错误率

⑥使用算法：常见应用是文档分类

前文中的独立是指统计意义的独立，即一个特征出现的可能性与其他特征没有关系。朴素是指整个形式化过程只做最简单、最原始的假设。

三. 使用python进行文本分类

1. 准备数据：从文本中构建词向量

本文把文本看成是单词向量或词条向量，也就是将句子转换为向量。

 
       def  
       loadDataSet():

 
            
       postingList 
       = 
       [[ 
       'my' 
       , 
       'dog' 
       , 
       'has' 
       , 
       'flea' 
       , 
       'problems' 
       , 
       'help' 
       , 
       'please' 
       ], 
      

 
                         
       [ 
       'maybe' 
       , 
       'not' 
       , 
       'take' 
       , 
       'him' 
       , 
       'to' 
       , 
       'dog' 
       , 
       'park' 
       , 
       'stupid' 
       ], 
      

 
                         
       [ 
       'my' 
       , 
       'dalmation' 
       , 
       'is' 
       , 
       'so' 
       , 
       'cute' 
       , 
       'I' 
       , 
       'love' 
       , 
       'him' 
       ], 
      

 
                         
       [ 
       'stop' 
       , 
       'posting' 
       , 
       'stupid' 
       , 
       'worthless' 
       , 
       'garbage' 
       ], 
      

 
                         
       [ 
       'mr' 
       , 
       'licks' 
       , 
       'ate' 
       , 
       'my' 
       , 
       'steak' 
       , 
       'how'