2011-12-2

uasvr开发备忘
在uasvr使用的过程中,首先遇到了调用servlet的方法问题,直接使用url的openstream会遇到字数的限制,后采用httpclient,能够成功调用servlet程序clsvr的GET方法,在调用过程中遇到的问题是url中非法字符要去掉,使用的是String的replaceAll的方法。
之后主要问题在于程序的速度。首先对clsvr采用了多线程处理,后采用了缓存语料库到内存,最后采用了训练语料库时将中间结果序列化到硬盘。程序的速度得到了很大提高。
语料库的选择之前百度知道分类不够准确,分类多被分到历史话题、星座运势等分类中,后采用鲜果网语料库,鲜果网的语料库分类较少,使得分类不够精确,后又采用百度知道的语料库,通过减少特征词的选取量,提高了百度知道语料库分类的精确度,分析原因是特征词选取减少使得词语更能代表这一类,不同类出现的概率是平等的,而之前特征词比较多,一些对分类贡献不大的词会因为语料库中一些分类中词语涵盖比较全而被误分类。在提高了精确度的同时,也造成了一些句子的误分类。这与贝叶斯分类假设词语之间是相互独立的有关。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值