谈谈opennlp maxent

背景:最大熵模型可用于文本分类

 

  • 简介

maxent是个非常不错的最大熵java实现
主要的功能还是分为两部分特征提取和GIS迭代算法

1)特征提取采取了简单将分词作为特征,目前只支持单个字段,但如过要实现多字段特征也是很简单的事情。

2)GIS迭代算法没什么好说的,大量的数学推导,从数学上保证了解的唯一性和迭代收敛

 

  • 流程

 

1)整个训练流程就是

读取每行文本---》分词成特征----》迭代计算----》最后生成每个特征对于输出分类的权重


2)整个分类过程就是

读取样本(一行)---》分词成特征-----》根据每个特征在输出分类的权重,计算该样本在输出各分类中的概率

  • 实践

我以3w个真实样本作为训练,1.5w是垃圾,1.5w是非垃圾
另外1w个真实样本作为测试,5k垃圾,5k非垃圾

共产生了49838个特征,6792个仅出现在垃圾中,7797个特征在垃圾和非垃圾都出现,35249个特征仅出现在非垃圾中

模型文件大小:1.9M

                   实际垃圾  实际非垃圾
机审垃圾        4766              6
机审非垃圾       234        4994


垃圾召回率:95.32%
准确率: 99.87%

通过100个并发,每个并发10000条,耗时77s,性能还是可以接受的。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值