PHP爬虫 爬取污染数据实例

本文介绍了一个使用PHP爬虫抓取污染数据的实例,包括获取目标页面、提取所需信息、创建数组并拼接成Json字符串。主要涉及HTML解析、CURL库和Json格式检查。
摘要由CSDN通过智能技术生成

PHP爬虫 爬取污染数据实例

标签(空格分隔): PHP HTML 爬虫


抓取的目标页面 http://www.pm25.com/city/shenzhen.html

抓取后输出的Json数组:
http://1.enigma2015.sinaapp.com/WebBots/lib/data2json.php
检查Json格式是否正确:http://web.chacuo.net/formatjson
此处输入图片的描述

可以被正常解析,格式无误。
思路:
1.获取页面
2.从页面提取出需要的值
3.为不同类型的值分别创建数组,并将获得的值按顺序依次填入相应数组
4.新建字符串,利用PHP的拼接符“.”将各个数组和自定义字符串拼接成合法Json字符串
5.输出字符串

开始!
我们先打开目标网页,确定我们需要抓取的数据。
这里我希望抓取的数据有:监测站点位置,AQI值,空气质量,PM2.5的值,和PM10的值。
然后用浏览器看源代码(“审查元素”),找到这些数据所在的代码块。观察其专属的标签属性。
不难发现:
所有的“监测站点”都放在了标签内
所有的“空气质量”都放在了标签内
所有的“AQI”值,PM2.5,PM10都放在了标签内
如下所示:

<a class="pjadt_location" href="/city/mon/aqi/深圳/荔园.html" title="查看荔园详细数据">荔园</a>
<em class="pjadt_quality_bglevel_
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值