余弦相似度-字符串相似度计算(scala)

34 篇文章 1 订阅
9 篇文章 0 订阅

不多说直接上代码:

package cn.nononononono

import scala.collection.mutable
import scala.collection.mutable.ListBuffer

/**
 * @作者:Alpha.SK.LXY
 * @时间:2022/6/2 14:09
 * @描述:文本处理工具集
 */
object StrDealTool {

  /**
   * 向量的模长
   *
   * @param vec
   */
  def module(vec: Vector[Double]): Double = {
    // math.sqrt( vec.map(x=>x*x).sum )
    math.sqrt(vec.map(math.pow(_, 2)).sum)
  }

  /**
   * 求两个向量的内积
   *
   * @param v1
   * @param v2
   */
  def innerProduct(v1: Vector[Double], v2: Vector[Double]): Double = {
    val listBuffer = ListBuffer[Double]()
    for (i <- 0 until v1.length; j <- 0 until v2.length; if i == j) {
      if (i == j) {
        listBuffer.append(v1(i) * v2(j))
      }
    }
    listBuffer.sum
  }

  /**
   * 求两个向量的余弦值
   *
   * @param v1
   * @param v2
   */
  def cosvec(v1: Vector[Double], v2: Vector[Double]): Double = {
    val cos = innerProduct(v1, v2) / (module(v1) * module(v2))
    if (cos <= 1) cos else 1.0
  }

  def textCosine(str1: String, str2: String): Double = {
    val set = mutable.Set[Char]() //统计两句话所有的字
    str1.foreach(set += _)
    str2.foreach(set += _)
    println(set)
    val ints1: Vector[Double] = set.toList.sorted.map(ch => {
      str1.count(s => s == ch).toDouble
    }).toVector
    println("===ints1: " + ints1)
    val ints2: Vector[Double] = set.toList.sorted.map(ch => {
      str2.count(s => s == ch).toDouble
    }).toVector
    println("===ints2: " + ints2)
    cosvec(ints1, ints2)

  }


  //  测试
  def main(args: Array[String]): Unit = {


    val str1 = "跟我读黑化肥发灰会挥发"
    val str2 = "跟我读黑化肥发灰会挥发"

    val result = textCosine(str1, str2)
    println("两句话的余弦距离: " + result)



    val str11 = "跟我读黑化肥发灰会挥发"
    val str22 = "发挥会灰发肥化黑读我跟"

    val result2 = textCosine(str11, str22)
    println("两句话的余弦距离(倒序): " + result2)



    val str111 = "跟我读黑化肥发灰会挥发"
    val str222 = "如果黑化肥发灰发会不会挥发"

    val result222 = textCosine(str111, str222)
    println("两句话的余弦距离(文本不一致): " + result222)

  }
}

结果:

Nice! 

有问题评论交流或者关注小程序《数据之巅》

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Scala是一种基于JVM的多范式编程语言,它可以被用于开发各种应用程序,包括推荐算法。推荐算法中常用的一个技术是余弦相似度余弦相似度是一种用来比较两个向量相似度的方法,它通过计算两个向量之间的夹角余弦值来确定它们的相似度。在推荐系统中,我们可以使用余弦相似度来比较用户之间的兴趣爱好或者商品之间的相似度。 具体来说,我们可以使用Scala实现如下的余弦相似度推荐算法: 1. 首先,我们需要定义一个函数来计算两个向量之间的余弦相似度。 ```scala def cosineSimilarity(a: Array[Double], b: Array[Double]): Double = { require(a.size == b.size) val dotProduct = a.zip(b).map(p => p._1 * p._2).sum val aMagnitude = math.sqrt(a.map(x => x*x).sum) val bMagnitude = math.sqrt(b.map(x => x*x).sum) dotProduct / (aMagnitude * bMagnitude) } ``` 2. 然后,我们需要定义一个函数来计算商品之间的相似度矩阵。 ```scala def itemSimilarityMatrix(items: Map[String, Array[Double]]): Map[String, Map[String, Double]] = { val itemIds = items.keys.toArray itemIds.zipWithIndex.foldLeft(Map[String, Map[String, Double]]()) { case (matrix, (itemId, i)) => (i until itemIds.size).foreach { j => val otherItemId = itemIds(j) val similarity = cosineSimilarity(items(itemId), items(otherItemId)) if (similarity > 0) { matrix + (itemId -> (matrix.getOrElse(itemId, Map()) + (otherItemId -> similarity))) + (otherItemId -> (matrix.getOrElse(otherItemId, Map()) + (itemId -> similarity))) } else { matrix } } } } ``` 3. 最后,我们可以使用相似度矩阵和用户的历史行为来为用户推荐商品。 ```scala def recommendItems(userHistory: Map[String, Double], itemSimilarity: Map[String, Map[String, Double]], numItems: Int): Seq[String] = { val filteredHistory = userHistory.filterKeys(itemSimilarity.contains) val allSimilarities = filteredHistory.flatMap { case (itemId, rating) => itemSimilarity(itemId).map { case (otherItemId, similarity) => (otherItemId, (similarity, rating)) } } val topItems = allSimilarities.groupBy(_._1).mapValues { similarRatings => val (weightedSum, similaritySum) = similarRatings.map { case (_, (similarity, rating)) => (similarity * rating, similarity) }.unzip weightedSum.sum / similaritySum.sum }.toSeq.sortBy(-_._2).take(numItems) topItems.map(_._1) } ``` 以上就是一个基于余弦相似度的推荐算法的Scala实现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值