Spark和HanLP结合实现分词

实现地理位置名词的分词

    val spark = SparkSession
      .builder()
      .appName("Word2Vec").master("local[*]")
      .getOrCreate()

    val df=spark.createDataFrame(Seq(("1","湖北武汉市汉口北大道12345号"),
      ("2","成都青羊区清江中路"),
      ("3","地址是乱输入的")
    )).toDF("id","address")

    import spark.implicits._
    val tmpDf=df.map(r=>{
        val id=r.getAs[String]("id")
        val address=r.getAs[String]("address")
        val result=address.wordSplit().mkString("|")
        (id,address,result)
      }).filter(x=>{
      x._3!=""
    }).toDF("id","address","address_split")
    tmpDf.show()
    spark.stop()

核心代码:

  implicit class WordSplit(word: String) extends Serializable {

    def wordSplit(flag: Boolean = false): Seq[String] = {
      Option(word) match {
        case None => Seq.empty[String]
        case Some(s) => {
          val el = segments.seg(s.trim)
          val result = if (el.isEmpty) Seq.empty[String]
          else {
            //取地理名词
            el.filter(_.nature.name() == "ns")
              .map(x => {
                x.word.trim.replaceAll(" ", "")
              }).filterNot(_.isEmpty).distinct
          }
          flag match {
            case false => result
            case true => result.map(_.replaceAll(usenessWs.mkString("[", " ", "]"), ""))
          }
        }
      }
    }
  }
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值