php 内容相似度,php-数据分析 余弦相似度实现

php-数据分析 余弦相似度实现

/**

* 数据分析引擎

* 分析向量的元素 必须和基准向量的元素一致,取最大个数,分析向量不足元素以0填补。

* 求出分析向量与基准向量的余弦值

* @author [email protected]

*/

/**

* 获得向量的模

* @param unknown_type $array 传入分析数据的基准点的N维向量。|eg:array(1,1,1,1,1);

*/

function getMarkMod($arrParam){

$strModDouble = 0;

foreach($arrParam as $val){

$strModDouble += $val * $val;

}

$strMod = sqrt($strModDouble);

//是否需要保留小数点后几位

return $strMod;

}

/**

* 获取标杆的元素个数

* @param unknown_type $arrParam

* @return number

*/

function getMarkLenth($arrParam){

$intLenth = count($arrParam);

return $intLenth;

}

/**

* 对传入数组进行索引分配,基准点的索引必须为k,求夹角的向量索引必须为 'j'.

* @param unknown_type $arrParam

* @param unknown_type $index

* @ruturn $arrBack

*/

function handIndex($arrParam, $index = 'k'){

foreach($arrParam as $key => $val){

$in = $index.$key;

$arrBack[$in] = $val;

}

return $arrBack;

}

/**

*

* @param unknown_type $arrMark标杆向量数组(索引被处理过)

* @param unknown_type $arrAnaly 分析向量数组 (索引被处理过) |array('j0'=>1,'j1'=>2....)

* @param unknown_type $strMarkMod标杆向量的模

* @param unknown_type $intLenth 向量的长度

*/

function getCosine($arrMark, $arrAnaly, $strMarkMod ,$intLenth){

$strVector = 0;

$strCosine = 0;

for($i = 0; $i < $intLenth; $i++){

$strMarkVal = $arrMark['k'.$i];

$strAnalyVal = $arrAnaly['j'.$i];

$strVector += $strMarkVal * $strAnalyVal;

}

$arrAnalyMod = getMarkMod($arrAnaly); //求分析向量的模

$strFenzi = $strVector;

$strFenMu = $arrAnalyMod * $strMarkMod;

$strCosine = $strFenzi / $strFenMu;

if(0 !== (int)$strFenMu){

$strCosine = $strFenzi / $strFenMu;

}

return $strCosine;

}

?>

原文:http://blog.csdn.net/phpfenghuo/article/details/28710519

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值