Ansj中文分词Java开发小记

原创 2016年08月29日 14:16:55

1、ansj中文分词器:https://github.com/NLPchina/ansj_seg


   基于n-Gram+CRF+HMM的中文分词的java实现.
   分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上;
   目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能;

   可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。


2、http://maven.nlpcn.org/org/ansj/ansj_seg/

   下载ansj_seg-5.0.2-all-in-one.jar,引入eclipse工程;


3、代码:

 package cn.ansj;

import org.ansj.splitWord.analysis.ToAnalysis;

public class SplitWordsByAnsj {
	
	public static void main(String args[]) {
		String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
		System.out.println(ToAnalysis.parse(str));
	}
	
}


版权声明:本文为博主原创文章,未经博主允许不得转载。 举报

相关文章推荐

Ansj中文分词Java开发自定义和过滤词库

Ansj中文分词应用时,需要自定义词库,比如城中村,分词成城、中、村,需自定义词库,有时,也需要过滤单词。具体代码如下,可以结合执行结果看代码效果。 1、过滤词库 package csc.ansj...

Java中文分词工具AnsjSeg使用

2015-1-14阅读474 评论0         中文分词是进行中文文本分析的一个重要步骤。对于Java语言,有许多可选的分词工具,如中科院计算所的NLPIR(原ICTCLASS)、盘古...

我是如何成为一名python大咖的?

人生苦短,都说必须python,那么我分享下我是如何从小白成为Python资深开发者的吧。2014年我大学刚毕业..

Java中文分词工具AnsjSeg使用

中文分词是进行中文文本分析的一个重要步骤。对于Java语言,有许多可选的分词工具,如中科院计算所的NLPIR(原ICTCLASS)、盘古分词、IKAnalyzer、PaodingAnalyzer,其中...

差分约束系统的学习 poj1364(bellman和spfa)

King Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 13843 Accepted: 4920 Description ...

ansj分词史上最详细教程

最近的项目需要使用到分词技术。本着不重复造轮子的原则,使用了ansj_seg来进行分词。本文结合博主使用经过,教大家用最快的速度上手使用ansj分词。1.给ansj来个硬广

Solr 5.5.3配置ansj5.0.3

注: 文章只是记录操作步骤,不适合入门教学 直接利用内置的jetty,不使用tomcat 导入jar包 将如下的四个jar包放到E:\solr\server\solr-webapp\webapp\WE...

Ansj自定义词典

1.首先添加ansj的maven依赖 org.ansj ansj_seg 5.1.2 2.使用ansj测试分词 public class WordSegmentTest {...

java ansj5.0.1自定义词典

为了让分词系统更好的识别公司名字,进行了自定义词典实验,具体代码如下: public static void main(String[] args) {         // TODO Auto-...

ansj词典加载及简洁分词过程

ansj词典加载及简要分词过程 粗略看了点ansj源代码,记录备忘。   词典等配置文件加载类 (以调用 NlpAnalysis 分词类为例): 1,   MyStaticValue 初始化 NlpA...
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)