php文章摘要,PHP：如何生成文章摘要

最新推荐文章于 2021-04-01 18:15:25 发布

卡休微卡

最新推荐文章于 2021-04-01 18:15:25 发布

阅读量187

点赞数

文章标签： php文章摘要

2017年第一篇日志，今天来说说一个我觉得很有意思的东西，文章摘要的生成。主要利用到了正则匹配来完成，下面来详细说说原理。

问题

生成文章摘要，就像下面的图片显示的一样，

困难有如下两点：

汉字的截取问题；

html标签的截取问题。

首先，中文环境下肯定不能用substr来进行截取，如果是英文文章，这样做没问题，如果是中文文章，会导致乱码，因为substr方法是按照ascii码进行截取，而一个汉字占三个字符长度，因此会很容易只截取汉字的一部分，如下：

var_dump(substr('你说斯蒂芬士大夫是领导方式呢开发', 0 , 2));

string(2) "�" // 打印

复制代码

当然，这个很好解决，多字节的字符可以用多字节字符串函数进行处理，打开php.ini，搜索mbstring.dll，将前面的;删除，重启apache后，即可使用多字节字符串处理函数。其中的mb_substr能够进行多字节字符串的截取。

困难二，也是比较麻烦的：html的截取。因为很容易截取一半的标签。当然，也有很多解决方法，如：

方法一，利用strip_tags除去所有的html标签，之后采用mb_substr进行截取，避免截取标签错误。当然，这样做的话，显示的文章没有任何样式，是纯文本；

方法二，可以在写文章时添加一个标志位，再利用mb_substr和mb_strpos来截取从开始到标志位的地方作为文章摘要。这个很不推荐，手动添加很恶心，影响文章书写，你不能让用户去做这个；

方法三，是对进行截取后的html进行分析，补齐未闭合的标签，删除错误的标签，这就需要用到正则了。

原理

我采用的方法就是第三种，利用正则来过滤和补充html内容，生成完整的文章摘要。

首先利用mb_substr对需要生成摘要的文章进行截取，对于截取后的字符串可能会有几种情况：

正好截取；

截取了一半的标签，如：

测试测试测试测试测试测试测试

这种情况，利用正则表达式来查询开始标签和结束标签，如果两个标签的数量不一致，那么说明有标签未闭合，同时可以得到未闭合的标签并将其补齐。

需要注意的是，HTML中有不少自闭和的标签，在匹配时注意去除这些内容，包括img,br,hr,link,meta,input等

错误的标签，如

// 一：

测试测试测试测试测试测试测试

测试测试测试测试测试

对这种情况，我的想法是利用正则直接将其删除掉，如错误一，

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
php文章摘要,PHP：如何生成文章摘要

2017年第一篇日志，今天来说说一个我觉得很有意思的东西，文章摘要的生成。主要利用到了正则匹配来完成，下面来详细说说原理。问题生成文章摘要，就像下面的图片显示的一样，困难有如下两点：汉字的截取问题；html标签的截取问题。首先，中文环境下肯定不能用substr来进行截取，如果是英文文章，这样做没问题，如果是中文文章，会导致乱码，因为substr方法是按照ascii码进行截取，而一个汉字占三个字符长...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。