推酷升级博客 php7,博客爬取系统

最新推荐文章于 2022-01-13 12:47:29 发布

weixin_39724009

最新推荐文章于 2022-01-13 12:47:29 发布

阅读量74

点赞数

文章标签：推酷升级博客 php7

引言

周末没事干，无聊，使用php做了个博客抓取系统，我经常访问的是cnblogs，当然从博客园(看看我还是很喜欢博客园的)开始入手了，我的抓取比较简易，获取网页内容，然后通过正则匹配，获取到想要的东西，然后保存数据库，当然了，在实际过程中会遇到一些问题。做这个之前已经想好了，要做成可扩充的，以后要是哪天想添加csdn、51cto、新浪博客这些内容了可以很容易的扩展。

那些东西可以抓取？

首先要说些，这个是个简易的抓取，不是所有网页中看到的东西都可以抓取，有些东西是抓取不到的，就像下面这些

其中圈红的阅读次数、评论次数、推荐次数、反对次数、评论……，这些是通过js调用ajax动态获取的，所以是获取不到的，其实就一句话，你打开一个网页，然后右键点击查看源代码，在源代码中直接看不到的，这种简易抓取可能就有问题，要抓取那些ajax填充的内容，要想想其他办法，之前看见过一篇文章，有人先通过浏览器加载完网页，然后对整个dom就行筛选(那篇文章也说了，这样效率很低)，当然了，拼接这些js请求也是可以的，估计会比较麻烦。

爬取的思路

首先说下爬取深度depth

比如从链接a开始爬，如果depth是1，获取玩当前链接的内容就完事，如果depth是2的话，就从a链接的内容中再去按指定的规则匹配链接，对匹配到的链接也做depth为1的处理，以此类推，depth是获取链接的深度、层级。这样爬虫才可以”爬动起来“。

当然了，用一个链接去爬特定的内容，这个爬到的东西是很有限的，或者有可能还没爬起来就死掉了(往后的层级没有匹配到内容)，所以在爬取的时候可以设置多个起始链接。当然了，在爬取的时候很可能会遇到很多重复的链接，所以还得给抓取到的链接做记号，防止重复获取相同的内容，造成冗余。有几个变量来缓存这些信息，格式如下

第一，就是一个hash数组，键值是url的md5值，状态是0，维护一个不重复的url数组，形如下面的形式

Array(

[bc790cda87745fa78a2ebeffd8b48145]=> 0[9868e03f81179419d5b74b5ee709cdc2]=> 0[4a9506d20915a511a561be80986544be]=> 0[818bcdd76aaa0d41ca88491812559585]=> 0[9433c3f38fca129e46372282f1569757]=> 0[f005698a0706284d4308f7b9cf2a9d35]=> 0[e463afcf13948f0a36bf68b30d2e9091]=> 0[23ce4775bd2ce9c75379890e84fadd8e]=> 0

......)

第二个就是要获取的url数组，这个地方还可以优化，我是将所有的链接链接全部获取到数组中，再去循环数组获取内容，就等于是说，所有最大深度减1的内容都获取了两次，这里可以直接在获取下一级内容的时候顺便把内容获取了，然后上面的数组中状态修改为1(已经获取)，这样可以提高效率。先看看保存链接的数组内容：

Array(

[0] => Array(

[0] => http://zzk.cnblogs.com/s?t=b&w=php&p=1

)

[1] => Array(

[0] => http://www.cnblogs.com/baochuan/archive/2012/03/12/2391135.html

[1] => http://www.cnblogs.com/ohmygirl/p/internal-variable-1.html

[2] => http://www.cnblogs.com/zuoxiaolong/p/java1.html

......)

[2] => Array(

[0] => http://www.cnblogs.com/ohmygirl/category/623392.html

[1] => http://www.cnblogs.com/ohmygirl/category/619019.html

[2] => http://www.cnblogs.com/ohmygirl/category/619020.html

......)

)

最后将所有的链接拼为一个数组返回，让程序循环获取连接中的内容。就像上面的获取层级是2，0级的链内容接获取过了，仅仅用来获取1级中的链接，1级中的所有链接内容也获取过了，仅仅用来保存2级中的链接，等到真正获取内容的时候又会对上面的内容进行一次获取，而且上面的hash数组中的状态都没有用到。。。(有待优化)。

还有一个获取文章的正则，通过分析博客园中的文章内容，发现文章标题、正文部分基本都可以很规则的获取到

标题，标题html代码的形式都是下图的那种格式，可以很轻松的用下面的正则匹配到

正文，正文部分是可以通过正则表达式的高级特性平衡组很容易获取到的，但弄了半天发现php好像对平衡组支持的不是很好，所以放弃额平衡组，在html源码中发现通过下面的正则也可以很容易匹配到文章正文的内容，每篇文章基本都有下图中的内容

]*?>.*)

#is

开始：

结束：

博客的发布时间也是可以获取到的，但有些文章在获取发布时间的时候可能会找不到，这个就不列在这里了，有了这些东西就可以爬取内容了。

开始爬取

开始爬取内容了，最初我设置的爬取深度是2级，初始页面是博客园首页，发现爬取不了多少内容，后来发现博客园首页有个页码导航

　　就试图拼接成页码格式http://www.cnblogs.com/#p2，循环200次，以每页为起始页面，深度为2去抓取。但我高兴的太早了，开了几个进程跑了好久程序，抓了几十万条，后来发现完全在重复，都是从第一页中抓取的，因为博客园首页点击导航的时候(除了第一页)，都是ajax请求获取到的。。。。看来博客园还是考虑到这个问题，因为大多数人都是只打开首页，不会去点击后面的内容(我可能偶尔会去点击下一页)，所以为了在防止初级抓取者去抓取和性能发面做权衡，将第一页设置为静态网页的方式，缓存有效期是几分钟(或者是根据跟新频率，当更新多少篇的时候去更新缓存，或者两者的结合)，这也是为什么有时候发布的文章，过一会儿才会显示出来的原因(我猜的^_^)。

难道不能一次性抓取很多内容吗？后来我发现这个地方使用的全部是静态网页

从找找看这个地方获取到的内容都是静态的，包括最下面的导航链接中的所有页面都是静态的，而且，这个搜索右边还有筛选条件，可以更好的提高抓取的质量。好了有了这个入口，就可以获取到好多高质量的文章了，下面是循环抓取100页的代码

for($i=1;$i<=100;$i++){echo "PAGE{$i}*************************[begin]***************************\r";$spidercnblogs = new C\Spidercnblogs("http://zzk.cnblogs.com/s?t=b&w=php&p={$i}");$urls = $spidercnblogs->spiderUrls();die();foreach ($urls as $key => $value) {$cnblogs->grap($value);$cnblogs->save();

}

至此，就可以去抓去自己喜欢的东西了，抓取速度不是很快，我在一台普通pc上面开了10个进程，抓了好几个小时，才获取到了40多万条数据，好了看看抓取到的内容稍微优化之后的显示效果，这里面加上了博客园的基础css代码，可以看出效果和

抓取到的内容稍作修改：