结巴切词
lvtula
这个作者很懒,什么都没留下…
展开
-
Spark:基于jieba分词的特征向量提取
基于jieba分词的对计算机课程名的特征向量提取 首先引入包: import org.apache.spark.sql.{DataFrame, SparkSession}//spark入口,DataFrame操作需要用到的包 import java.nio.file.{Path, Paths}//加入自定义词库时路径需要的包 import com.huaban.analysis.jieba...转载 2020-03-26 21:40:51 · 1066 阅读 · 0 评论 -
结巴分词5--关键词抽取
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007欢迎转载,也请保留这段声明。谢谢! 1 简介 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。 除了这些,关键词还可以在文本聚类、分类、自动摘要...转载 2020-03-26 14:42:54 · 424 阅读 · 0 评论