搜索
softwarehe
这个作者很懒,什么都没留下…
展开
-
IK-analyzer添加搜狗词库
1:从http://pinyin.sogou.com/dict/下载选择的细胞词库2:用深蓝词库转换工具提取出txt文本3:用ultraedit将txt文本保存为无bom utf-8格式,dos换行4:在solr的WEB-INF下创建classes目录5:将utf-8格式的txt词库拷贝到solr的WEB-INF/classes目录6:在WEB-INF/classes创建IKA原创 2012-06-19 11:57:44 · 6686 阅读 · 1 评论 -
solr的ansj分词使用
从https://github.com/mlcsdev/mlcsseg下载版本原创 2014-09-10 21:55:28 · 960 阅读 · 0 评论 -
solr取所有文档示例
当数据规模不算大的时候可以这么做 server = new HttpSolrServer( SOLR_URL ); QueryResponse rsp = server.query( query ); SolrDocumentList docs = rs原创 2013-05-24 10:21:32 · 1656 阅读 · 0 评论 -
solr multiValued的查询
SolrServer solrserver = new HttpSolrServer( SOLR_URL ); SolrQuery query = new SolrQuery(); query.setQuery("*:*"); List movielist = new ArrayList(); try { QueryResponse rsp = solrserver原创 2013-05-23 15:43:05 · 2812 阅读 · 0 评论 -
solr查询例子
写在这里当备忘 SolrServer server; SolrQuery query = new SolrQuery(); query.setFacet(true); String sDistrict = request.getParameter("district"); String sGenre = request.getParameter("genre");原创 2013-05-23 15:46:52 · 1089 阅读 · 0 评论 -
crf开源实现
crfsuitecrfpp可以做不少工作,其中crfsuite可以用来做新词发现等,研究下,crfpp据说太慢了,不爽今天从微博上看到,下面这个更好:http://wapiti.limsi.fr/原创 2013-02-19 15:23:42 · 961 阅读 · 0 评论 -
信息自动抽取一个实现
http://code.google.com/p/cx-extractor/转载 2013-02-26 17:23:23 · 554 阅读 · 0 评论 -
布隆过滤器——Bloom Filter
原文地址:http://imtinx.iteye.com/blog/1290636谷歌的数学之美系列曾经提到过一种数据结构叫做bloomfilter,翻译成中文就是布隆过滤,文中使用布隆过滤器来过滤黑名单。后来我在毕业设计中也用到了它来过滤重复的URL,避免网络爬虫重复抓取。再后来在单位又一次的用到了bloomfilter来过滤用户的重复访问。随着海量数据时代的到来,布隆过滤器应用的场转载 2013-02-18 09:58:38 · 652 阅读 · 0 评论 -
【算法设计】基于大规模语料的新词发现算法
对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢?这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西——未登录词。中文没有首转载 2013-01-25 17:42:47 · 827 阅读 · 0 评论 -
solr3.4源代码学习笔记(一)
最近做solr的拼音搜索功能,需要学习solr的源代码,在此记录学习过程,以备将来回顾。一:源代码下载地址在http://archive.apache.org/dist/lucene/solr/3.4.0/,找到src压缩包下载,大小是100M二:开发环境搭建参考:http://www.zwsun.com/solr_in_eclipse_2012_06_10_post,感谢原创 2012-09-14 10:03:16 · 1590 阅读 · 0 评论 -
suggest类似百度下拉框的开源实现
http://www.pengoworks.com/workshop/jquery/autocomplete.htm原创 2012-10-10 15:08:07 · 730 阅读 · 0 评论 -
solr的ExtendedDisMax查询
看wiki就能使用:http://wiki.apache.org/solr/ExtendedDisMax使用solrj的时候,按命令行中参数取出来添加就行了,有个注意点,参数中的+号前后要加空格,不然就查询异常了,现在也没搞清为啥,以后有机会搞清原创 2012-06-29 16:24:17 · 945 阅读 · 0 评论 -
solr的DisMaxQParserPlugin
http://wiki.apache.org/solr/DisMaxQParserPlugin多字段搜索,先记录下来,以后有需要的时候看原创 2012-06-29 10:02:42 · 959 阅读 · 0 评论 -
solr的自动补全
看看这篇文章的思路http://zha-zi.iteye.com/blog/993088转载 2012-06-26 17:40:57 · 1211 阅读 · 0 评论 -
Solr中文搜索纠错功能实现
http://www.nonb.cn/blog/solr-spell-check.html这个能纠错拼音的,比较厉害,不过如何写这些文件很头痛啊!转载 2012-06-26 17:39:56 · 2988 阅读 · 0 评论 -
Solr SpellCheck实践
http://ericbao.i.sohu.com/blog/view/200758402.htm这篇文章的价值是讲了三种类型的拼写检查器如何一起使用转载 2012-06-26 14:15:56 · 1188 阅读 · 0 评论 -
Apache Solr3.4应用实践(高亮 拼写检查 匹配相似)
http://www.cnblogs.com/ibook360/archive/2011/11/21/2257200.html补充上面文章,几个注意点:1:true ,这个是关键点,没这个就不能check2:修改solrconfig.xml后必须重启tomcat,不然修改不能生效3:tomcat的字符集必须改为utf-8,这个不要忽略了转载 2012-06-26 11:52:04 · 649 阅读 · 0 评论 -
nlpcn搜索提示资源
http://www.nlpcn.org/docs/7/d378e24e-e06d-42d7-b306-7de2d91eb06e转载 2014-09-15 09:36:30 · 981 阅读 · 0 评论