2011-11-01

想提高程序分析的准确度,语料库的问题很多。
百度知道:每一条的文字太少,各个分类不平衡的现象比较严重-》解决方法:重新对文字进行整合和划分
微话题:涉及内容不够全面
搜狗文本分类语料库:分类不准确
鲜果网语料库:目前测试还可以

分析原因:语料库中,没篇txt包含的文字数不能太少,每个分类包含的文字数量最好平衡。不同来源的语料库结合在一起使用并不很容易。分析不同的内容,最好采用不同的语料库。搜狗语料库是针对中文新闻,资源比较好整理。对于一些其他话题,如团购信息,则语料库是个问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值