分词
止戈(Frank)
这个作者很懒,什么都没留下…
展开
-
中文分词算法总结
什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来 才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学转载 2018-04-13 09:39:36 · 457 阅读 · 0 评论 -
java中文分词算法
我想只要是学过数据库的孩纸,不管是mysql,还是sqlsever,一提到查找,本能的想到的便是like关键字,其实去转盘网(分类模式)之前也是采用这种算法,但我可以告诉大家一个很不幸的事情,like匹配其实会浪费大量的有用资源,原因这里不说了请自己想一想,我们还是直接摆事实验证。 现在用去转盘网搜:hello 找个单词,如下: http://www.quzhuanpan.com/sour...转载 2018-04-13 09:45:22 · 2270 阅读 · 0 评论 -
Java中文分词组件 - word分词
Java分布式中文分词组件 - word分词word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结...转载 2018-04-13 09:48:05 · 404 阅读 · 0 评论 -
maven全局配置文件settings.xml详解
maven全局配置文件settings.xml详解概要settings.xml有什么用?如果在Eclipse中使用过Maven插件,想必会有这个经验:配置settings.xml文件的路径。settings.xml文件是干什么的,为什么要配置它呢?从settings.xml的文件名就可以看出,它是用来设置maven参数的配置文件。并且,settings.xml是maven的全局配置...原创 2018-04-13 10:00:26 · 163 阅读 · 0 评论