语义分析发现:灵玖大数据检索与分词

  在中文自然语言中,词是最小的能够独立活动的有意义的语言成分。但是汉语词语之间没有明显的区分标记,因此在进行中文自然语言处理前,通常是先将汉语文本中的字符串切分成合理的词语序列,再在此基础上进行其它分析处理。将中文字符串切分成合理词语序列的过程就是中文分词,它是中文信息处理的一个基础环节,已经被广泛应用于中文文本处理、信息提取、文本挖掘等应用中。

  分词算法要想获得更好的切分精度,通常需要利用更多的语言资源,这样必耗费更多的时间去处理这些语言资源,因此对于一般切分精度比较高的算法,其切分的速度是比较慢的;而一些切分速度快的算法,因为抛弃了一些繁琐的语言处理,故切分精度一般不高。从当前的一些主要分词算法来看,切分精度虽然有差别,但差异都不是特别大,而切分时间相对来说差别则比较大。根据实验,在相同的实验环境下,较快的切分算法(如最大匹配算法)可以达到20MB/秒以上,而慢的切分算法(如基于层次隐马模型的分词算法)只有100KB/秒左右。对于当前的一些实际应用比如Web搜索来说,时间效率是重要的。那些较高切分精度的分词算法,因为速度太慢不仅无法满足实际应用的需求,有时甚至也无法满足其它自然语言处理研究的需要。在目前的许多实际应用产品中,为了保证速度都不得不牺牲部分准确度,可能也采取了一些比较简单的切分算法。

  近年来,伴随着SIGHAN国际中文分词评测活动Bakeoff的开展,中文分词技术有了长足的进步,在分词方法和理念上都有了很大的创新。

  JZSearch大数据精准搜索引擎是灵玖软件对大数据垂直搜索需求的全文检索引擎,已经实际应用于中国邮政、中国标准搜索、微博搜索、新疆维吾尔舆情搜索等多个应用系统。整个系统内容基于C++开发,支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。

  其主要特性包括:

  1.可以按照任意指定字段的排序,支持指定字段的搜索,也可以搜索多个字段,以及复杂表达式的综合搜索;

  2.支持精确匹配以及模糊匹配,默认为精确匹配,忽略字母大小写进行模糊匹配;

  3.内嵌正负面情感等极性分析,也可以支持类别搜索;

  4.语义联想搜索:如搜索“马铃薯”可以同时返回“土豆”的内容,搜索“北京市”可以返回“北京”或者“首都”的内容;语义联系词表用户可以根据业务需要进行定制;

  5.支持增量索引:系统可以在搜索服务不停的前提下,继续索引新的数据,索引完成后,可以搜索新的数据;

  6.自动备份与恢复机制,在建立索引和自动优化之前,系统会将已有的索引文件自动备份;在当前索引文件被破坏无法搜索的前提下,系统将自动恢复上次搜索正常的备份文件;

  7.自动缓存机制:系统自动保存最近常用的搜索条件与结果,再次搜索时将直接推送搜索结果内容,可以将搜索响应速度提升30%以上;缓存会随着新的索引数据自动更新,不存在缓存延迟问题;

  8.自动优化机制:在系统索引碎片较多时,系统会自动优化归并;

  9.实现的是多线程搜索服务; 兼容当前所有厂商的数据库系统,其中SQL Server, Oracle, MySQL,DB2等。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31386431/viewspace-2127526/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31386431/viewspace-2127526/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值