基于java的中文分词工具包_smallseg首页、文档和下载 - 中文分词工具包 - OSCHINA - 中文开源技术交流社区...

weixin_39940253

于 2021-02-27 15:31:29 发布

阅读量138

点赞数

文章标签：基于java的中文分词工具包

本文链接：https://blog.csdn.net/weixin_39940253/article/details/114820600

版权

smallseg -- 开源的，基于DFA的轻量级的中文分词工具包

特点：可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。

Python 示例代码：

s3 = file("text.txt").read()

words = [x.rstrip() for x in file("main.dic") ]

from smallseg import SEG

seg = SEG()

print 'Load dict...'

seg.set(words)

print "Dict is OK."

A,B = seg.cut(s3) #A是识别出的登录词列表，B是未登录词列表

for t in A:

try:

print t.decode('utf-8')

except:

pass

print "============================"

for t in B:

try:

print t.decode('utf-8')

except:

pass

Java 示例代码：

Seg seg = new Seg();

seg.useDefaultDict();

System.out.println(seg.cut("至于在这个程序中没有太大的意义, 这是Java提供的强制转化机制。草泥马"));

stdout>>

r:[至于, 在这, 程序, 没有, 太大, 意义, 这是, 提供, 强制, 转化, 机制]

u:[Java, 草泥马, 泥马]

(因为“草泥马”并没有在词库中)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39940253

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

[python] 使用Jieba工具中文分词及文本聚类概念

LYX_WIN

08-18

302

因此，在文本进行聚类之前，应用文本信息特征集进行缩减，针对每个特征词的权重排序，选取最佳特征，包括TF-IDF。同时，他的实验数据是搜狐中心的10个大类，包括汽车、财经、IT、体育等，而我的数据都是旅游，如何进一步聚类划分，如山川、河流、博物馆等等，这是另一个难点。故宫/的/著名景点/包括/乾清宫/、/太和殿/和/午门/等/。/其中/乾清宫/非常/精美/，/午门/是/紫禁城/的/正门/，/午门/居中/向阳/。/ 其中/ 乾清宫/ 非常/ 精美/ ，/ 午门/ 紫禁城/ 正门/。

中文分词工具jar包

08-01

源码是中科院的分词源码，将其引入项目中，进行生成jar包，很方便的引入到另一个项目中，推荐使用啊。

参与评论您还未登录，请先登录后发表或查看评论

java语言开发的轻量级的中文分词工具包

iteye_925的博客

09-08

460

package com.haha.test; import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.ana...

使用IK Analyzer实现中文分词之Java实现（包含所有工具包）

03-30

1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar（主jar包） 3、IKAnalyzer.cfg.xml（分词器扩展配置文件） 4、stopword.dic（停止词典） 5、IkSegmentation.java（样例类）

smallseg中文分词包（python）

07-08

安装方法：只需将下载的包中smallseg.py拷贝到Python安装目录的Lib文件夹中即可

Java分词包

04-04

Java结巴分词包，网上不好找资源，把它放到这里了，希望能帮到你们。

Java分词工具模糊查询_es模糊查询的问题 - java编程充电宝的个人空间 - OSCHINA - 中文开源技术交流社区...

weixin_39863161的博客

02-24

930

es模糊查询的问题今天在遇到es查询的时候，遇到了难点，花了半天才发现问题原因。需求是：es实现模糊查询。相当于sql中的like %像%一样。但是在开发过程中，我使用了各种分词，各种查询代码，总是实现不了。问题：比如：我查询切片面包可以查询出来，但是我查询切面包就查询不出来。原因是es默认采用了分词机制，导致我查询的时候，切面包没有放在一个分词中，查询不到。MatchQueryBuilde...

java自然语言处理包_Java自然语言处理NLP工具包

weixin_39525933的博客

02-13

181

自然语言处理1.Java自然语言处理 LingPipeLingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能，包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Quer...

中文分词工具整理

Laphicet's Weblog

07-07

1338

由于英文中词与词之间有空格隔开，使得英文分词的工作主要集中在词干提取（形态还原）、大小写转换等。而中文的书写习惯、一词多义等因素，决定了中文分词并不像英文分词那样简单，也使得中文分词成为中文自然语言处理的重要课题之一。下文的中文分词工具列表是约为14年左右对当时常用中文分词器的一些调研，其中有些目前已经不能使用，仅供读者参考。MMSEG：* MMSEG （A Word Identificatio

java自然语言处理_Java自然语言处理NLP工具包

weixin_42653691的博客

02-12

2463

java分词工具

12-10

分析了先阶段好用的分词工具，java中使用的分词工具进行了分析，都做了个demo.

java分词jar包

09-15

java分词的jar包，提供分词代码的支持

使用IK Analyzer实现中文分词之Java实现

03-29

IK Analyzer 是一个开源的，基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版开始， IKAnalyzer 已经推出了 4 个大版本。最初，它是以开源项目Luence 为应用主体的，结合词典分词和文法分析算法的中文分词组件。从 3.0 版本开始，IK 发展为面向 Java 的公用分词组件，独立于 Lucene 项目，同时提供了对 Lucene 的默认优化实现。在 2012 版本中，IK 实现了简单的分词歧义排除算法，标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。

java版结巴分词工具

11-29

java版结巴分词工具，一个很好的中文分词工具。直接用eclipse打开，输入是一篇文章，然后输出是每个词的词频，并且词频是按照大小从次数最高到次数最低排的，只需要在test包里改部分代码就可以使用了。不下你会后悔的。

中文分词java实现

05-09

所需要抽取的文本进行分词和词性的标注，将中文划分为独立存在的词，并且辨别这些词的词性，将每一个词的词性标注在每一个词的后面。这样做可以方便我们对一些需要的词的抽取，并且能更加方便的进行词频统计。

IK Analyzer实现中文分词

梧桐林木

03-30

1229

IK Analyzer是基于lucene实现的分词开源框架，下载路径:http://code.google.com/p/ik-analyzer/downloads/list 需要在项目中引入： IKAnalyzer.cfg.xml IKAnalyzer2012.jar lucene-core-3.6.0.jar stopword.dic 什么都不用改示例

Java中文分词组件 - word分词

weixin_33878457的博客

04-29

643

2019独角兽企业重金招聘Python工程师标准>>> ...

Java中文分词组件 - word分词