《机器学习实战》-朴素贝叶斯笔记

本文详细介绍了如何使用朴素贝叶斯进行文本分类,包括在Python中实现文本分类器,过滤负面语言,以及应用到垃圾邮件检测和RSS源广告区域倾向分析。通过实例展示了从数据收集、预处理到训练、测试算法的完整流程,并探讨了朴素贝叶斯假设和概率计算。同时,讨论了如何调整参数以改善分类效果和分析地域相关词汇。
摘要由CSDN通过智能技术生成

本章内容

使用概率分布进行分类

分类:
if p1(x,y)>p2(x,y),属于类别1
if p1(x,y)>p2(x,y),属于类别2

如何计算概率值呢?

p(ci|x,y)=p(x,y|ci)p(ci)p(x,y)

即在(x,y)的条件下属于类别ci的概率值

学习朴素贝叶斯分类器

朴素贝叶斯的一般过程:
1、收集数据
2、准备数据
3、分析数据
4、训练算法
5、测试算法:计算错误率
6、使用算法

例子1:使用Python进行文本分类
背景:构建一个快速过滤器,判断在线社区留言板是否使用了负面或者侮辱性的语言
Step 1: 创建字典作为特征
将每一篇文档转换为词汇表上的向量

//训练样本
def loadDataSet():
    postingList=[['my', 'dog', 'has', 
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值