Java JE MMAnalyzer

需要引入je-analysis-1.4.0.jar包

package com.test;

import java.io.IOException;
import java.io.StringReader;

import jeasy.analysis.MMAnalyzer;

public class testJE {

	public static void main(String[] args){
		
		String test = "帕森斯命中三分球,随后德拉季奇和斯科拉也跟进得分,火箭以19-13领先进入暂停。" +
				"其中包括巴丁格的空接暴扣,但是首节结束时火箭还是以26-30落后爵士队。火箭的坎比9分6个篮板球,帕森斯8分,爵士的哈沃德12分。";
		
		StringReader sr = new StringReader("斯科");
		
		//不是只分成长度<=2的词,而是当两个词已经匹配时,就不再尝试第三个是否能组成新词,优点类似最小向前匹配
		MMAnalyzer mm = new MMAnalyzer(2);
		mm.addWord("暴扣");
		mm.addDictionary(sr);
		try {
			System.out.println(mm.segment(test, "|"));
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
}



帕森斯|命中|三分球|随后|德拉季奇|斯科拉|跟进|得分|火箭|19-13|领先|进入|暂停|其中|包括|巴丁格|空接暴扣|但是|首|节结|束|时|火箭|还是|26-30|落后|爵士|队|火箭|坎|比|9分|6个|篮板球|帕森斯|8分|爵士|哈沃德|12分|
mm.addWord("暴扣")帕森斯|命中|三分球|随后|德拉季奇|斯科拉|跟进|得分|火箭|19-13|领先|进入|暂停|其中|包括|巴丁格|空接|暴扣|但是|首|节结|束|时|火箭|还是|26-30|落后|爵士|队|火箭|坎|比|9分|6个|篮板球|帕森斯|8分|爵士|哈沃德|12分|
MMAnalyzer(2)帕森斯|命中|三分|球|随后|德拉季奇|斯科拉|跟进|得分|火箭|19-13|领先|进入|暂停|包括|巴丁格|空接|暴扣|首|节结|束|时|火箭|还是|26-30|落后|爵士|队|火箭|坎|比|9分|6个|篮板|球|帕森斯|8分|爵士|哈沃德|12分|
mm.addDictionary(sr)帕森斯|命中|三分|球|随后|德拉季奇|斯科|拉也|跟进|得分|火箭|19-13|领先|进入|暂停|包括|巴丁格|空接|暴扣|首|节结|束|时|火箭|还是|26-30|落后|爵士|队|火箭|坎|比|9分|6个|篮板|球|帕森斯|8分|爵士|哈沃德|12分|
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
要使用Java实现文本分类,可以借助一些开源的库和算法。其中,中文分词是文本分类的一个重要步骤。可以使用开源的中文分词器,比如MMAnalyzer,它可以对给定的文本进行中文分词。\[1\] 在文本分类中,特征工程也是一个关键的步骤。可以使用TF-IDF方法对文本进行表示,这可以通过使用Spark MLlib提供的功能来实现。TF-IDF可以帮助我们计算文本中每个词的重要性,从而为文本分类提供更好的特征表示。\[2\] 在实现文本分类的过程中,可以使用朴素贝叶斯算法。朴素贝叶斯是一种常用的文本分类算法,它基于贝叶斯定理和特征条件独立假设,可以用于训练模型和进行分类预测。可以使用Spark MLlib提供的朴素贝叶斯算法来完成对中文文本的分类过程。\[2\] 如果你想使用Java实现文本分类,可以先创建一个Spring Boot项目,并引入相关的依赖。如果对于Spring Boot的创建不熟悉,可以参考一些教程或者博客来了解如何创建Spring Boot项目。\[3\] 总结起来,要使用Java实现文本分类,你可以使用中文分词器进行中文分词,使用TF-IDF方法进行文本表示,使用朴素贝叶斯算法进行模型训练和分类预测。同时,你可以创建一个Spring Boot项目来实现这些功能。 #### 引用[.reference_title] - *1* [文本分类算法之--贝叶斯分类算法的实现Java版本](https://blog.csdn.net/u011955252/article/details/50761018)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Java Spark ML实现的文本分类](https://blog.csdn.net/coderma/article/details/125083708)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [基于weka的中文文本分类(java版)](https://blog.csdn.net/sinat_23225111/article/details/79677048)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值