java分词技术(自动提取关键词,段落大意)hanlp

这是老师大作业需要的技术才知道hanlp这个外部包  使用方法

包以及数据如下GIT下载很慢我传百度云了   链接:https://pan.baidu.com/s/14a22v1g_CAQN-G-k8f3Ovw  提取码:yfse 

1 把你的下载的data解压到你项目的根目录下 例如你项目文件夹叫 test  把data文件夹放在text文件夹下就行

2 配置 hanlp.properties 把这个文件放在你需要调用hanlp的目录下(那个文件调用了这外部包方法就放在跟这个文件同级的目录下) 配置里面的root 目录为你项目目录可以是绝对路径也可以是相对  例如 我的项目叫  ITcihuifenxi 我配置root 为  root=D:/hadoop-web/ITcihuifenxi/

3 上代码 

package com.test;
import java.util.List;

import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.common.Term;
import com.hankcs.hanlp.suggest.Suggester;
import com.hankcs.hanlp.tokenizer.NLPTokenizer;

public class MainTest {
    public static void main(String[] args) {
        System.out.println("首次编译运行时,HanLP会自动构建词典缓存,请稍候……\n");
        //第一次运行会有文件找不到的错误但不影响运行,缓存完成后就不会再有了
        System.out.println("标准分词:");
        System.out.println(HanLP.segment("你好,欢迎使用HanLP!"));
        System.out.println("\n");

        List<Term> termList = NLPTokenizer.segment("中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程");
        System.out.
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
很抱歉,jieba分词器是Python中的中文分词工具,Java中并没有直接使用jieba的方法。不过Java中也有很多优秀的中文分词工具,比如ansj、HanLP等。这里以ansj为例,介绍如何在Java中使用中文分词工具提取关键词。 首先,需要在Java项目中引入ansj分词器的jar包。然后,可以按照以下步骤使用ansj分词提取关键词: 1. 导入ansj分词器的相关类: ```java import org.ansj.domain.Result; import org.ansj.splitWord.analysis.ToAnalysis; import org.ansj.util.FilterModifWord; ``` 2. 调用ToAnalysis.parse()方法对文本进行分词: ```java String text = "这是一段待分词的文本"; Result result = ToAnalysis.parse(text); ``` 3. 调用FilterModifWord.insertStopWords()方法添加停用词(可选): ```java FilterModifWord.insertStopWords(Arrays.asList("的", "是", "一", "段")); ``` 4. 调用FilterModifWord.modifResult()方法过滤分词结果: ```java result = FilterModifWord.modifResult(result); ``` 5. 遍历分词结果,提取关键词: ```java List<String> keywords = new ArrayList<>();for (int i = 0; i < result.size(); i++) { String word = result.get(i).getName(); String natureStr = result.get(i).getNatureStr(); if (!natureStr.startsWith("w")) { // 过滤掉标点符号 keywords.add(word); } } ``` 以上就是使用ansj分词器在Java提取关键词的步骤。需要注意的是,ansj分词器默认使用的是基于词典的分词方式,对于一些新词或专有名词可能无法很好地识别,需要手动添加词典或调整分词规则。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值