- 博客(3)
- 资源 (15)
- 收藏
- 关注
转载 Sogou的语料库的问题
最近在训练HMM模型的时候,发现一句话的结果很奇怪,原文“据北京中原地产...”。可是我的模型输出结果是“聚北京中原....”。程序写错了? 不应该呀,模型调试过好多次应该没有这么严重的问题呀。 于是开始从数据下手,发现二元的“聚北”和三元的“聚北京”出现次数异常的高,远远超过“据北京”的频率,这样导致最终的模型计算概率的结果出现问题。再返回到最原始的抽取数据去看看到底什么内容是“
2013-04-16 09:43:27 1494
转载 关于Heritrix的Extractor中文乱码
关键字:Heritrix 中文 乱码 GB2312 Extractor 继承从org.archive.crawler.extractor.Extractor的子类,在extract方法中可以从参数CrawlURI中取出要解析的内容。 curi.getHttpRecorder().getReplayCharSequence.toString()
2013-04-13 20:53:16 1584
原创 使用继续完善前人写的文章:使用ICTCLAS JAVA版(ictclas4j)进行中文分词
一、ICTCLAS的介绍中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词
2013-04-11 15:58:13 7225 6
PowerDesigner 教程 数据库
2011-03-18
Linux学习资料详细
2010-09-12
JavaScript资料大全
2010-09-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人