中文分词软件概览

  • 中文分词库IKAnalyzer

    IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为...

  • 中文分词库Paoding

    庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。...

  • 智能中文分词模块imdict-chinese-analyzer

    imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中...

  • 中文分词器mmseg4j

    1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory...

  • 中文分词工具包smallseg

    smallseg -- 开源的,基于DFA的轻量级的中文分词工具包 特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。 Python 示例代码: s3 = file("text.txt").read()words = [x.rstrip()...

  • Lucene中文分词库ICTCLAS4J

    ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复杂度,旨在为广大的中文分词爱好者一个更好的学习机会。

  • 中文分词软件包LibMMSeg

    LibMMSeg 简介 LibMMSeg 是Coreseek.com为 Sphinx 全文搜索引擎设计的中文分词软件包,其在GPL协议下发行的中文分词法,采用Chih-Hao Tsai的MMSEG算法。 MMSEG: A Word Identification System for...

  • 开源中文分词系统HTTPCWS

    HTTPCWS是一款Linux下的基于HTTP协议的开源中文分词系统,采用BSD协议。 这个分词系统是对中国科学院计算技术研究所免费提供的 ICTCLAS 3.0...

  • 中科院中文分词FreeICTCLAS

    中科院ICTCLAS最新free开放源代码,里面有中文分词算法,大家一起共同学习和研究,对搜索引擎中文分词方面有很大用处哦

  • 中文句法分析器ctbparser

    一个用C++实现的 中文句法分析 工具包,采用的是中文宾州树库标准(Chinese Tree Bank),并提供源代码。 可以对原始的文档(GBK编码)进行自动繁简转换,分句,分词,词性标注,依存句法分析。 该句法分析工具采用了标准的图模型算法,即最大生成树算法(projective...

  • 中文分词开源版CRF

    中文分词是互联网应用不可缺少的基础技术之一,也是其他语音和语言产品必不可少的技术组件。 自2003年第一届国际中文分词评测以来,由字构词的分词方法获得了压倒性优势,国内主要通过CRF++开源软件包来学习该分词方法,但是CRF++过于复杂的代码结构,导致了该算法的普及率。...

  • 中文分词库PHPCWS

    PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统,该项目现在已改名为 HTTPCWS,此项目不再继续维护。 PHPCWS 先使用“ICTCLAS 3.0...

  • 简易中文分词系统SCWS

    SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。 这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,...

  • 盘古分词

    盘古分词是一个基于 .net framework 的中英文分词组件。主要功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元分词...

  • 中文分词库NlpBamboo

    bamboo是一个中文语言处理系统。目前包括中文分词和词性标注部分。 bamboo提供了C,PHP,PostgreSQL的编程接口。

  • http协议中文分词http-scws

    http-scws(基于scws的http协议中文分词),软件基于scws 1.1.7版本二次开发,基于libevent进行http封装,请求更简单 功能: 1.词库为文本文件方式,增加、删除更方便 2.支持gbk与utf-8(基于scws功能)...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值