作用:
计算对象属于的类别
公式:
A: 类别
B: 待分类对象
P(B) : 待分类对象自身的概率(可忽略不计)
P(A): 每个类别的先验概率(比如100篇文章,30篇是军事类别,那军事的先验概率是0.3)
P(B|A): 每个类别产生对象的概率
P(Bi|Ai) : 每个类别产生该特诊的概率 P(苹果|科技)
使用最大似然估算法:
P(a) = Count(Ai):类别为ai的对象在训练数据中出现的次数
例如:
总共训练数据100篇,其中军事类30篇,科技类20篇
P(军事) = 0.3 P(科技)=0.2
P(Bj | Ai) = count(Bj,Ai)/count(Ai)
P(Bj | Ai)
• Count(Bj, Ai):特征Bj和类别Ai训练数据同时出现的次数
例如:
特征出现在训练数据对象的总数 / 分类的先验概率
• 总共训练数据1000篇,其中军事类300篇,科技类240篇,生活类140篇,……
• 军事类新闻中,谷歌出现15篇,投资出现9篇,上涨出现36篇
• P(谷歌|军事)=0.05, P(投资|军事)=0.03, P(上涨|军事)=0.12,
求值逻辑:
给定X,计算所有的p(yi|X),选择概率值最大的yi作为输出
• X={国内,投资,市场,……}
• P(军事|X)=P(国内|军事)* P(投资|军事)* P(市场|军事)……P(军事)
• 同样计算P(科技|X) P(生活|X)