六、机器学习系统设计笔记之分类II情感分析

1、路线图概述

 朴素贝叶斯;阐释词性标注;

2、获取推特数据


3、朴素贝叶斯分类器介绍

朴素贝叶斯最优工作假设:所有特征相互独立。

贝叶斯定理:P(A)P(B|A)=P(B)|*P(A|B)

将A替换成特征F1,和F2出现的概率,把B想象成我们的类别C,得到P(F1,F2)P(C|F1,F2)=P(C)|*P(F1,F2|C)

得P(C|F1,F2)=P(C)|*P(F1,F2|C)/P(F1,F2)

P(C|F1,F2)就是我们常说的后验概率,P(C)就是在不知道数据时类别C的概率


因为F1和F2假设相对独立,可以得到P(C|F1,F2)=P(C)|*P(F1|C)×P(F2|C)/P(F1,F2)


 分类器:由上得到分类器,还需要选择概率最高的类别Cbest,它对真是概率不感兴趣,只关注哪个类别更有可能

 Cbest=argmaxP(C=c)×P(F1|C=c)×P(F2|C=c)

考虑未出现词语的情况:加1平滑 

考虑算术下溢:log(xy)=log(x)+log(y)

在现实中,只关心哪个类别具有更高的后验概率


4、创建第一个分类器并调优

使用TfidfVectorrize,将原始推文转换为TF-IDF特征值,

调优:

 

Scikit-learn里面有一个专门处理参数训练类,叫做GridSearchCV,它使用一个估算器,得到最优分类器的参数


5、清洗推文

  表情的处理

6、将词语类型考虑进去



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值