php数据分析引擎,PHP数据分析引擎计算余弦相似度算法示例

本文实例讲述了PHP数据分析引擎计算余弦相似度算法。分享给大家供大家参考,具体如下:

余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。

关于余弦相似度的相关介绍可参考百度百科:余弦相似度

/**

* 数据分析引擎

* 分析向量的元素 必须和基准向量的元素一致,取最大个数,分析向量不足元素以0填补。

* 求出分析向量与基准向量的余弦值

* @author yu.guo@okhqb.com

*/

/**

* 获得向量的模

* @param unknown_type $array 传入分析数据的基准点的N维向量。|eg:array(1,1,1,1,1);

*/

function getMarkMod($arrParam){

$strModDouble = 0;

foreach($arrParam as $val){

$strModDouble += $val * $val;

}

$strMod = sqrt($strModDouble);

//是否需要保留小数点后几位

return $strMod;

}

/**

* 获取标杆的元素个数

* @param unknown_type $arrParam

* @return number

*/

function getMarkLenth($arrParam){

$intLenth = count($arrParam);

return $intLenth;

}

/**

* 对传入数组进行索引分配,基准点的索引必须为k,求夹角的向量索引必须为 'j'.

* @param unknown_type $arrParam

* @param unknown_type $index

* @ruturn $arrBack

*/

function handIndex($arrParam, $index = 'k'){

foreach($arrParam as $key => $val){

$in = $index.$key;

$arrBack[$in] = $val;

}

return $arrBack;

}

/**

*

* @param unknown_type $arrMark标杆向量数组(索引被处理过)

* @param unknown_type $arrAnaly 分析向量数组 (索引被处理过) |array('j0'=>1,'j1'=>2....)

* @param unknown_type $strMarkMod标杆向量的模

* @param unknown_type $intLenth 向量的长度

*/

function getCosine($arrMark, $arrAnaly, $strMarkMod ,$intLenth){

$strVector = 0;

$strCosine = 0;

for($i = 0; $i < $intLenth; $i++){

$strMarkVal = $arrMark['k'.$i];

$strAnalyVal = $arrAnaly['j'.$i];

$strVector += $strMarkVal * $strAnalyVal;

}

$arrAnalyMod = getMarkMod($arrAnaly); //求分析向量的模

$strFenzi = $strVector;

$strFenMu = $arrAnalyMod * $strMarkMod;

$strCosine = $strFenzi / $strFenMu;

if(0 !== (int)$strFenMu){

$strCosine = $strFenzi / $strFenMu;

}

return $strCosine;

}

?>

希望本文所述对大家PHP程序设计有所帮助。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值