机器学习实战-朴素贝叶斯

1、
优点:可处理多分类问题
缺点:对数据输入格式敏感,多用于标称型数据(只存在 是与否)
2、文档分类
特征选取:将每个词的出现与否看做特征,0和1 (文档词集模型)
词典:统计所有文档中单词,排序,构成list,(word_dim,1)
文档词向量:按照词典中单词,对应每一文档,转化为数字。每一文档,(word_dim,1)
文档标签:正常言论、非正常
在这里插入图片描述

p(c):先验概率,可直接求出,0类样本数 / 总样本数
p(wi/c0):单词wi在某文档出现次数/单词wi在所有文档出现次数,类别0
p(w):不用管
将模型训练好后,输入某样本,判断
3、
文档词集模型:以每个词是否出现为特征,只有0和1
文档词袋模型:以每个词出现的次数为特征
4、过滤垃圾邮件
特征选取:将每个词的出现次数看做特征
词典:统计所有文档中单词,排序,构成list,(word_dim,1)
文档词向量:按照词典中单词,对应每一文档,转化为数字。每一文档,(word_dim,1)
文档标签:垃圾,非垃圾
5、模型
输入:
文档集合:(文档,标签)
输出:训练好的模型,输入带判断样本,输出预测标签

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值