spark给某一列字段进行加密

有一些数据存在一些敏感数据,需要进行一些特殊处理,比如身份证号,可以用hash算法或者md5进行加密,我用的处理方式是将加密算法自定义成udf函数,拿MD5举例子,直接上代码

//加密算法
  def hashMD5(content: String): String = {
    val md5 = MessageDigest.getInstance("MD5")
    val encoded = md5.digest((content).getBytes)
    encoded.map("%02x".format(_)).mkString
  }

//dataset:数据集  colName:要加密的字段名称   alias加密字段之后的列名
  def columnWithMD5(dataset:Dataset[Row],colName:String,alias:String):Dataset[Row]={

    val my_udf = udf(hashMD5 _)

    dataset.withColumn(alias,my_udf(col(colName)))
  }

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值