在之前有一篇文章介绍如何通过python抓取网页,见Python抓取中文网页,但是不久之后就发现这种方式对于CSDN的个人博客的抓取行不通了。早就听说了curl的强大,今天就拿curl来试一试。
curl的功能很强大,这里有一个curl使用简介,大家可以参考,其他问题请自行百度google之。这里我们只用到了最基本的--connect-timeout 和-o,以抓取本博客为例:
curl -s --connect-timeout 10 -o blog "http://blog.csdn.net/nevasun"
OK,在当前目录下就会有一个blog的文件,我们以纯文本文件的方式打开,就会发现有如下的信息:
<li>访问:<span>10598次</span></li>
<li>积分:<span>610分</span></li>
<li>排名:<span>第13159名</span></li>