php获取文章链接,php 匹配博客目录里的文章链接

最新推荐文章于 2021-03-25 05:44:56 发布

weixin_42316909

最新推荐文章于 2021-03-25 05:44:56 发布

阅读量73

点赞数

文章标签： php获取文章链接

最近在写爬虫练手，但是发现匹配出来数据很少

以博客园为例，这个是我的正则

/http\:\/\/www\.cnblogs\.com\/' . $name . '\/[^\" ]+.html/i

然后匹配这位同学：http://www.cnblogs.com/hoojo/default.html?page=1

发现只有42条数据，但是这位同学明显不止42篇文章，请问如何优化我的正则

回复内容：

最近在写爬虫练手，但是发现匹配出来数据很少

以博客园为例，这个是我的正则

/http\:\/\/www\.cnblogs\.com\/' . $name . '\/[^\" ]+.html/i

然后匹配这位同学：http://www.cnblogs.com/hoojo/default.html?page=1

发现只有42条数据，但是这位同学明显不止42篇文章，请问如何优化我的正则

首先，你这个http://www.cnblogs.com/hoojo/default.html?page=1 只是第一页，第一页好像只有这么多篇文章吧？http://www.cnblogs.com/hoojo/default.html?page=2 是第二页。

首先，你要确定他的博客里面有多少页。你就从第二页http://www.cnblogs.com/hoojo/default.html?page=2 取它的总页数共6页: 上一页 1 2 3 4 5 6，再在你原来的代码外面加个 for 循环 http://www.cnblogs.com/hoojo/default.html?page={$page_number} 这样就好了。

不太懂您的正则写法。

我数了下第一页一共50条文章，然后我是这么实现的：

|i", $aa, $m);

var_dump($m[1]);

这样的结果就是文章链接数组了。

在测试过程中发现文章作者会把其他文章链接写在摘要里，并且被显示。所以您的方法会把摘要内的链接也读出来。

我这里是用文章原文链接的特性获取到的链接。

希望能够帮到你。

相关标签：php 匹配

本文原创发布php中文网，转载请注明出处，感谢您的尊重！

weixin_42316909

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
php获取文章链接,php 匹配博客目录里的文章链接

最近在写爬虫练手，但是发现匹配出来数据很少以博客园为例，这个是我的正则/http\:\/\/www\.cnblogs\.com\/' . $name . '\/[^\" ]+.html/i然后匹配这位同学：http://www.cnblogs.com/hoojo/default.html?page=1发现只有42条数据，但是这位同学明显不止42篇文章，请问如何优化我的正则回复内容：最近在写爬虫练手...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。