以某博客https://blog.51cto.com/oldboy为目标进行抓取
为了稳定数据源,先使用curl将抓取目标页面存于本地
curl -s https://blog.51cto.com/oldboy -o oldboy.html
代码:
总结:
基本思路就是分析页面内容的特征。改页面文章列表部分内容如下:
这里只打算获得文章发布时间、文章标题以及链接。
发布时间行找出特征字符串,clase="time f1"
其后的第4-5行是标题和链接。这里偷了个懒直接获得发布时间行以及之后的5行内容。单独去抓标题和链接的行也是可以。
比如:grep -A 1 -E "^.*class=\"tit\"" oldboy.html