从网页提取内容

最新推荐文章于 2018-03-17 11:41:49 发布

tz_sz

最新推荐文章于 2018-03-17 11:41:49 发布

阅读量800

点赞数

分类专栏： linux

本文链接：https://blog.csdn.net/taozhi20084525/article/details/22781501

版权

linux 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

问题来源：

想看看《程序员》杂志的云计算类别的文章，发现不能用有道阅读订阅。由于该类别有68篇文章，每页显示10条记录，所以查看很不方便。于是想把所有文章的名称和url提取出来，放在一个文本中，这样可以方便查看。

解决思路：

最先想到的是用curl命令，可是发现该命令只能打开第一页的网页，其他页并不能打开，无法提取。原因可能是cookie造成的。最后使用lynx命令解决，lynx -source url可以将url的网页源代码打印到stdout，代码记录如下：

#本程序用于从程序员官网抓取云计算类别的所有文章，打印出url和文章名称。
#!/bin/bash

for i in {1..10}
do
	lynx -source www.programmer.com.cn/category/%E4%BA%91%E8%AE%A1%E7%AE%97/page/$i | grep "<h2  class=\"posttitle\">" | sed 's/.*href="\([^"]*\)"[^>]*>\([^<]*\)<.*/\1 \2/g'
done

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tz_sz

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从网页提取内容

问题来源：想看看《程序员》杂志的云计算类别的文章，发现不能用有道阅读订阅。由于该类别有68篇文章，每页显示10条记录，所以查看很不方便。于是想把所有文章的名称和url提取出来，放在一个文本中，这样可以方便查看。解决思路：最先想到的是用curl命令，可是发现该命令只能打开第一页的网页，其他页并不能打开，无法提取。原因可能是cookie造成的。最后使用lynx命令解决，lynx -
复制链接

扫一扫