Ansj分词

/**
  * Created by liuwei on 2017/8/24.
  */
object AnsjTest {

  def main(args: Array[String]): Unit = {
      val string = "test环境服务器启动方式更新为supervisor启动"
      val t = tfidfAnsj(string, List.empty[String], List.empty[String])
      println(t)
    }

    //分词方法
    def tfidfAnsj(content: String, stopWordList: List[String], stopNatureList: List[String]): List[String] = {

      if (StringUtils.isEmpty(content))
        return List.empty[String]


      val stopWordListBuffer = ListBuffer.empty[String]
      stopWordListBuffer.append(null, "了", "的") //获取系统停用词
      stopWordList.foreach(f => stopWordListBuffer.append(f))

      val stopWordAll = stopWordListBuffer.toList


      val stopNaturesFromDictListBuffer = ListBuffer.empty[String]
      stopNaturesFromDictListBuffer.append(null, "w", "m") //获取系统停用词性
      stopNatureList.foreach(
        f => stopNaturesFromDictListBuffer.append(f)
      )
      val stopNatureAll = stopNaturesFromDictListBuffer.toList


      /*

     val stopWordFromDictList = List() //获取系统停用词
     val stopWordList_ = stopWordList ::: stopWordFromDictList*/
      //加入停用词
      FilterModifWord.insertStopWords(stopWordAll.asJava)

      /*val stopNaturesFromDictList = List(null, "w", "m") //获取系统停用词性
    val stopNatureList_ = stopNatureList ::: stopNaturesFromDictList

    */

      //加入停用词性
      FilterModifWord.insertStopNatures(stopNatureAll: _*)
      val temp = ToAnalysis.parse(content)
      //过滤停用
      val wordtemp = FilterModifWord.modifResult(temp)

      val result = wordtemp.toArray[Term](new Array[Term](0)).map(_.getName).toList

      result
    }
}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值