1、
优点:可处理多分类问题
缺点:对数据输入格式敏感,多用于标称型数据(只存在 是与否)
2、文档分类
特征选取:将每个词的出现与否看做特征,0和1 (文档词集模型)
词典:统计所有文档中单词,排序,构成list,(word_dim,1)
文档词向量:按照词典中单词,对应每一文档,转化为数字。每一文档,(word_dim,1)
文档标签:正常言论、非正常
p(c):先验概率,可直接求出,0类样本数 / 总样本数
p(wi/c0):单词wi在某文档出现次数/单词wi在所有文档出现次数,类别0
p(w):不用管
将模型训练好后,输入某样本,判断
3、
文档词集模型:以每个词是否出现为特征,只有0和1
文档词袋模型:以每个词出现的次数为特征
4、过滤垃圾邮件
特征选取:将每个词的出现次数看做特征
词典:统计所有文档中单词,排序,构成list,(word_dim,1)
文档词向量:按照词典中单词,对应每一文档,转化为数字。每一文档,(word_dim,1)
文档标签:垃圾,非垃圾
5、模型
输入:
文档集合:(文档,标签)
输出:训练好的模型,输入带判断样本,输出预测标签