Spring使用HanLP的TextRank并添加自定义词典

最新推荐文章于 2023-10-22 09:19:35 发布

卡拉卡拉Cubone

最新推荐文章于 2023-10-22 09:19:35 发布

阅读量470

点赞数

分类专栏：工具

本文链接：https://blog.csdn.net/m0_48161645/article/details/106641761

版权

工具专栏收录该内容

1 篇文章 0 订阅

订阅专栏

业务中碰到需要从文本中提取关键词的场景，调研了一下发现方法比较多，有TF-IDF，TextRank，TopicModel等。

这里决定先尝试一下TextRank，查了下发现大部分都是用python实现的。于是这里简单给个Java实现的方案，其中用到了HanLP。

HanLP的github网址：https://github.com/hankcs/HanLP

引用

使用的是portable-1.7.5，最新版本号可以去官网查看

		<dependency>
			<groupId>com.hankcs</groupId>
			<artifactId>hanlp</artifactId>
			<version>portable-1.7.5</version>
		</dependency>

自定义词典

把自定义词典放在对应目录下，赋值给Config并应用。

    @PostConstruct
    public void init() {
        HanLP.Config.CustomDictionaryPath = new String[]{"src/main/resources/userdefinedict.txt"};
        HanLP.newSegment().enableCustomDictionaryForcing(true);
    }

更新词典的时候记得删掉词典目录下的.bin文件，初始化的时候会优先读取.bin，如果没有才会读取原文件。

调用

第一个参数是需要解析的文本，第二个参数是提取关键词的个数。

List<String> words = HanLP.extractKeyword(content, 10);

结语

当然也可以用下载源代码的方式进行自定义配置，这方面的资料比较多，这里就不赘述了。

卡拉卡拉Cubone

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spring使用HanLP的TextRank并添加自定义词典

业务中碰到需要从文本中提取关键词的场景，调研了一下发现方法比较多，有TF-IDF，TextRank，TopicModel等。这里决定先尝试一下TextRank，查了下发现大部分都是用python实现的。于是这里简单给个Java实现的方案，其中用到了HanLP。HanLP的github网址：https://github.com/hankcs/HanLP引用使用的是portable-1.7.5，最新版本号可以去官网查看 <dependency> <groupId>com
复制链接

扫一扫