贝叶斯定理
朴素假设:特征相互独立
条件概率
全概率公式
某事件 B的发生可以由很多情况(A_1,A_2,…,A_n) 导致,那么这件事情发生的概率,就是每件事情( A_i)导致它( B)发生的概率P(B|A_i),乘以每件事情发生的概率P(A_i)
贝叶斯定理
某事件B还是由刚才所说的那些事件 (A_1,A_2,…,A_n)引起的,你已经知道某件事情发生了,那么他是由哪件事情引起的呢,引起的概率是P(A_k|B)
朴素贝叶斯
1、朴素贝叶斯法的学习与分类
2、朴素贝叶斯法的参数估计
2.1 极大似然估计【离散特征】
先验概率推导过程1:log似然函数
先验概率推导过程2:对P(Y=c_k)求导
先验概率推导过程3:依次求P(Y=c_k),k=1,2…,K
先验概率推导过程4:左右相加
2.2 学习与分类算法(例题考的概率很大)
第一步:计算先验和条件概率
第二/三步:计算每类概率/确定所属分类
2.3 贝叶斯估计【离散特征】
考虑:用极大似然估计可能会出现所要估计的概率值为0的情况,这时会影响到后验概率的计算结果,使分类产生偏差.解决这一问题的方法是采用贝叶斯估计
λ=0时是极大似然估计
λ=1时,称为拉普拉斯平滑(Laplacian smoothing)
3、 scikit-learn库中的朴素贝叶斯
详细内容见ppt及官方文档
4、文本数据处理
- 任务1:文本分类
垃圾邮件短信分类
新闻分类
网页分类
情感分析 - 任务2:信息检索
搜索引擎(谷歌、百度) - 任务3:信息抽取
命名实体识别
关系抽取 - 任务4:自动问答
问答机器人 - 任务5:机器翻译
翻译软件 - 任务6:自动摘要
搜索引擎