mysql文章相似度计算_文章相似度计算

最新推荐文章于 2023-08-25 15:18:06 发布

灰色呐喊

最新推荐文章于 2023-08-25 15:18:06 发布

阅读量697

点赞数

文章标签： mysql文章相似度计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28873283/article/details/113227826

版权

文章内容相似度计算几种方式及优缺点

PHP 内置方法 similar_text

similar_text 是PHP内置的字符串相似度对比函数，是使用方式最便捷的一种,但是因为它的时间复杂度是 O(N**3)，处理时间会随着内容长度增加,若比较5000字以上的文章，或者比较文章的量级比较大不建议使用,只是单篇文章对单篇文章可以使用。

通过分词进行余弦相似度对比

解决方案是首先进行文章分词可以用结巴或者迅搜分词服务进行文章分词,然后将需要对比的文章分词结果存入redis，在有新文章进行对比的时候从redis将所有文章的分词结果从内存中取出来然后进行相似度对比，逐词进行相似度计算。相似度计算的准确性很高，但是对比的文章量非常大的时候,处理时间还是会很长,5000文章的相似度计算需要近30S

主要计算代码：

Class TextSimilarity

{

/**

* [排除的词语]

*

* @var array

*/

private $_excludeArr = array('的', '了', '和', '呢', '啊', '哦', '恩', '嗯', '吧');

/**

* [词语分布数组]

*

* @var array

*/

private $_words = array();

/**

* [分词后的数组一]

*

* @var array

*/

private $_segList1 = array();

/**

* [分词后的数组二]

*

* @var array

*/

private $_segList2 = array();

private static $test1 = array();

private static $test2 = array();

/**

* [分词两段文字]

*

* @param [type

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
mysql文章相似度计算_文章相似度计算

文章内容相似度计算几种方式及优缺点PHP 内置方法 similar_textsimilar_text 是PHP内置的字符串相似度对比函数，是使用方式最便捷的一种,但是因为它的时间复杂度是 O(N**3)，处理时间会随着内容长度增加,若比较5000字以上的文章，或者比较文章的量级比较大不建议使用,只是单篇文章对单篇文章可以使用。通过分词进行余弦相似度对比解决方案是首先进行文章分词可以用结巴或者迅搜分...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。