php计算回复次数,计算词汇出现的次数

weixin_39985842

于 2021-03-21 16:39:27 发布

阅读量82

点赞数

文章标签： php计算回复次数

有一组非日常的英文词汇，我需要计算在英文文章中出现频次最多的。

于是我最初想到遍历数组，用 substr_count 依次计算每个词汇出现的次数，但这样就会造成对整篇文章多次重复的扫描。或者将文章也拆分成词汇，从中用数组函数计算交集数量，但依然觉得不理想。

各位有什么想法吗？这个应用其实也就是关键词提取。

回复讨论(解决方案)

拆成数组为何不好，英文入数组很方便啊，起码比中文简单多了

其实不太明白你的需求，纯粹统计 array_count_values 足够方便了

就是说你已经有了一个词库，现在需要在文章里检查词库词的出现次数

如果是的，那么可以使用 trie 算法(我发过的)

只需扫描文章一遍就可以了，当然要先构造词库

就是说你已经有了一个词库，现在需要在文章里检查词库词的出现次数

如果是的，那么可以使用 trie 算法(我发过的)

只需扫描文章一遍就可以了，当然要先构造词库

词库保存为什么格式比较好？mysql，json，xml，纯数组？

如果一篇文章有5kb，词库有1000个单词，那么把这1000个单词逐个foreach，匹配这篇文章，

mysql_query,

json_decode()

simplexml_load_file()

数组

哪个效率更高，更节省资源(CPU，RAM)？

5kb不太可能有1000个单词，全部都是冠词？

即使1000个，量也不算很大，去除重复应该就少很多了，一次数组交集就够了

我的思路是文章拆分为单词数组，array_count_values 就起到统计和去除重复两个功能

然后提取次数一定的部分(次数太少没匹配意义吧？)，那剩下就很少了，再与现存词库求交集就足够了

虽然楼主是专指英文词汇，但是你的算法若只限于英文词汇的话，那就没有什么意义了

5kb不太可能有1000个单词，全部都是冠词？

即使1000个，量也不算很大，去除重复应该就少很多了，一次数组交集就够了

我的思路是文章拆分为单词数组，array_count_values 就起到统计和去除重复两个功能

然后提取次数一定的部分(次数太少没匹配意义吧？)，那剩下就很少了，再与现存词库求交集就足够了

你说的也有道理

只是我觉得简单问题简单处理，他既然说英文，就按这样去想，没必要太花时间考虑算法

如果他说混杂多语种，估计我也只是旁观不会回这贴了，呵呵

虽然楼主是专指英文词汇，但是你的算法若只限于英文词汇的话，那就没有什么意义了

引用 4 楼 snmr_com 的回复:5kb不太可能有1000个单词，全部都是冠词？

即使1000个，量也不算很大，去除重复应该就少很多了，一次数组交集就够了

我的思路是文章拆分为单词数组，array_count_values 就起到统计和去除重复两个功能

然后提取次数……

版本给的前缀树怎么也没看懂，暂时先选择了多次扫描文章来实现

一个简单的例子include 'TTrie.php';class wordkey extends TTrie { function b() { $t = array_pop($this->buffer); $this->buffer[] = "$t"; }}$p = new wordkey;$p->set('秦始皇', 'b');$p->set('洛阳', 'b');$t = $p->match('秦始皇东巡洛阳');echo join('', $t);秦始皇东巡洛阳

本文原创发布php中文网，转载请注明出处，感谢您的尊重！

weixin_39985842

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
php计算回复次数,计算词汇出现的次数

有一组非日常的英文词汇，我需要计算在英文文章中出现频次最多的。于是我最初想到遍历数组，用 substr_count 依次计算每个词汇出现的次数，但这样就会造成对整篇文章多次重复的扫描。或者将文章也拆分成词汇，从中用数组函数计算交集数量，但依然觉得不理想。各位有什么想法吗？这个应用其实也就是关键词提取。回复讨论(解决方案)拆成数组为何不好，英文入数组很方便啊，起码比中文简单多了其实不太明白你的需求，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。