curl ——爬网页数据

爬厦门大学官网(http://www.xmu.edu.cn)页面上厦大新闻栏目下的标题。这里写图片描述
接下来单击鼠标右键->审查元素->Network->√preserve log->刷新页面,重载网页。
这里写图片描述
滚动条拉到最上面,www.xmu.edu.cn->preview,找到厦大新闻的标签下,发现并没有具体的新闻条目,故看其他Path。往下翻翻翻,哈哈~找到了一个名字是news_text_list.html的文件,听着名字就像是新闻列表,点击进入response,
这里写图片描述
发现里面的数据确实是厦大新闻的内容,所以我们找对啦~
点击headers看下具体信息
这里写图片描述
找到requestURL,复制下,一会儿用~

接下来就是代码代码啦~

第一步看看自己curl得到的网页信息:
这里写图片描述
下面是运行php之后的页面
这里写图片描述
完美的得到了新闻的信息。
接下来就是要对立面的信息信息用explode()函数进行切割,取出需要的信息~

先分析一下信息:
每一个标题都是一个标签。

<a href="http://news.xmu.edu.cn/s/13/t/542/79/42/info162114.htm" title="中化集团原副总裁罗东江畅谈国企市场化改革" target="_blank">» 中化集团原副总裁罗东江畅谈国企市场化改革</a>

而我们要取得信息是title=”这里的内容”,所以我们分两步进行切割。
第一步:以title=“为切割点。
这里写图片描述
运行php得到
这里写图片描述
接下来进行第二次切割。
这里写图片描述
运行之后
这里写图片描述
点击右键->查看网页源代码
这里写图片描述
这样我们就把需要的信息提取出来啦~
大功告成~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值