基于java的中文分词工具ansj,提供了多种模式,而ansj的一个优势是可以能够添加用户自定义辞典
import org.ansj.splitWord.analysis._
import org.ansj.recognition.impl.StopRecognition
import org.ansj.library.DicLibrary
第一个是导入ansj分词库;第二个导入停用词库,可以添加自定义的停用词;第三个是添加自定义词典的库
一、简单分词
首先,读取文件
val lines = sc.textFile("file:///home/sun/fenci.txt")
val str = lines.collect()(0)
<