- 博客(7)
- 收藏
- 关注
转载 Lucene中文分析器的中文分词准确性和性能比较
写个小的搜索引擎,利用现有的技术手段,分词感谢approximation的总结 From:http://approximation.iteye.com/blog/345885。 对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、
2013-01-30 15:35:44 560
转载 myeclipse 配置 DWR
1、将dwr.jar包(我用的是2.0版本的)和dwr-src文件下的commons-logging-1.0.4.jar放在webapp的WEB-INF/LIB目录下。 注:如果没有把commons-logging-1.0.4.jar放在里面,会出现如下的异常..... 错误信息如下: javax.servlet.ServletExceptio
2013-01-26 22:35:39 681
原创 Heritrix使用detail
1. 关于Heritrix的Extractor中文乱码 继承从org.archive.crawler.extractor.Extractor的子类,在extract方法中可以从参数CrawlURI中取出要解析的内容。 curi.getHttpRecorder().getReplayCharSequence.toString() 有中文时,不做处理会输出乱码。可以在取到
2013-01-26 14:24:36 548
转载 NLP领域经典综述 from:水木 zibuyu
Most of them could be accessed from the homepages of their authors. Chinese Word Segmentaion 张开旭同学整理的文献列表:http://nlp.csai.tsinghua.edu.cn/~zkx/cws/bib.html Information Extraction (2008) Suni
2013-01-17 17:52:16 1579
转载 NLP知名研究组织机构 from:水木 zibuyu
排名不分先后,欢迎补充! ACL: The Association for Computational Linguistics http://www.aclweb.org/ AAAI: Association for the Advancement of Artificial Intelligence http://www.aaai.org/ ICCL: The Intern
2013-01-17 17:50:37 715
转载 NLP常用信息资源 from:水木 zibuyu
ACL Anthology,囊括了ACL,EMNLP,CL等NLP领域重要会议和期刊的论文。 http://www.aclweb.org/anthology-new/ LDC: The Linguistic Data Consortium http://www.ldc.upenn.edu/ 知网 http://www.keenage.com/ WordNet http:/
2013-01-17 17:49:02 457
转载 NLP常用工具 from:http://www.cppblog.com/baby-fly/archive/2010/10/08/129003.html
各种工具包的有效利用可以使研究者事半功倍。 以下是NLP版版友们提供整理的NLP研究工具包。 同时欢迎大家提供更多更好用的工具包,造福国内的NLP研究。 *NLP Toolbox CLT http://complingone.georgetown.edu/~linguist/compling.html GATE http://gate.ac.uk/ Natural La
2013-01-17 16:00:16 820
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人