基于java的中文分词工具包_smallseg首页、文档和下载 - 中文分词工具包 - OSCHINA - 中文开源技术交流社区...

smallseg -- 开源的,基于DFA的轻量级的中文分词工具包

特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。

Python 示例代码:

s3 = file("text.txt").read()

words = [x.rstrip() for x in file("main.dic") ]

from smallseg import SEG

seg = SEG()

print 'Load dict...'

seg.set(words)

print "Dict is OK."

A,B = seg.cut(s3) #A是识别出的登录词列表,B是未登录词列表

for t in A:

try:

print t.decode('utf-8')

except:

pass

print "============================"

for t in B:

try:

print t.decode('utf-8')

except:

pass

Java 示例代码:

Seg seg = new Seg();

seg.useDefaultDict();

System.out.println(seg.cut("至于在这个程序中没有太大的意义, 这是Java提供的强制转化机制。草泥马"));

stdout>>

r:[至于, 在这, 程序, 没有, 太大, 意义, 这是, 提供, 强制, 转化, 机制]

u:[Java, 草泥马, 泥马]

(因为“草泥马”并没有在词库中)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值