php xpath类库,PHP 怎么使用 XPath 来采集页面数据内容

最新推荐文章于 2021-04-14 08:55:58 发布

快乐小学僧

最新推荐文章于 2021-04-14 08:55:58 发布

阅读量352

点赞数

关键词由CSDN通过智能技术生成

format,png

之前有说过使用 Python 使用 XPath 去采集页面数据内容，前段时间参与百度内测的一个号主页展现接口，需要文章页面改造的application/ld+json代码

我想过使用 QueryList 的框架去操作，但是因为他大小也算个框架，有点重，还是直接单文件吧

想到了之前写 Python 爬虫时使用的 XPath，PHP 应该也是可以搞的吧

动手就干，先找到对应的 XPath 规则，如下：

//script[@type='application/ld+json']/text()

script 节点下的 type 属性，拿到它中间的文本，也正好是我们需要的 JSON 数据

本来也是为了提交百度方便，所以直接做到给一个链接，然后代码去请求百度的接口就可以了

具体代码是这样的：

$html = file_get_contents('https://qq52o.me/2530.html');

$dom = new DOMDocument();

// 从一个字符串加载HTML

@$dom->loadHTML($html);

// 使该HTML规范化

$dom->normalize();

// 用DOMXpath加载DOM，用于查询

$xpath = new DOMXPath($dom);

// 获取对应的xpath数据

$hrefs = $xpath->query("//script[@type='application/ld+json']/text()");

for ($i = 0; $i < $hrefs->length; $i++) {

$href = $hrefs->item($i);

$json = $href->nodeValue;

}

类库的用法自己可以看一下手册，使用 DOMXPath 的 query 方法，执行给定的 Xpath 规则，就酱紫~

针对百度熊掌号新接口请求封装代码可以看一下 Github：sy-records/xzh-curl

总的来说，简单写一个页面的采集还是很简单的

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

快乐小学僧

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

php 使用xpath_在PHP中使用XPath

cuxiong8996的博客

07-06

2093

常用缩略语 API：应用程序编程接口 CRUD：创建，读取，更新和删除 CSS：级联样式表 DOM：文档对象模型 JSON：JavaScript对象表示法 RDF：资源描述框架 REST：代表性状态转移 RSS：真正简单的联合 SKU：库存单位 URI：统一资源标识符 W3C：万维网联盟 XHTML：可扩展超文本标记语言 XPath：XM...

PHP xpath抓取数据

daifeng的博客

07-03

369

public function test() { # file_get_contents 没效果要用curl-http请求 $html = file_get_contents('https://news.ke.com/bj/baike/0033/'); $html = $this->http_request('https://news.ke.com/bj/baike/0033/'); $dom = new \DOMDo...

参与评论您还未登录，请先登录后发表或查看评论

php 采集网页按xpath,网页数据采集相对XPATH使用教程 - 八爪鱼采集器

weixin_39589253的博客

03-27

668

本教程适用于对八爪鱼自定义模式有定操作基础，且学习过 XPath 基础教程，能看懂并书写简单的 XPath 路径。否则，您可能无法看懂该教程，建议先掌握基础操作。&version=v7.0在 Xpath 语法中元素定位主要有两种方式第一种：通过绝对路径做定位(定位较为死板)By.xpath ( "html/body/div/form/input" )第二种：通过相对路径做定位，两个斜杠代表...

php 采集 xpath,爬虫进阶开发——xpath选择器常见用法

weixin_42510841的博客

03-11

382

爬虫进阶开发——xpath选择器常见用法俗话说，工欲上其事，必先利其器，学好xpath选择器，能极高的提升在爬虫的数据提取环节中的提取速度，下面我们来认识认识xpath。选取节点XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文...

php. xml xpath查询,php使用XPATH解析xml

weixin_26711801的博客

03-21

151

XPATH是通过xml文档路径来解析xml的首先创建1.xmlyyj121男yyj221男2yyj350男3男3yyj431男3ab然后创建1.php

基于PHP的Query 强大的采集类库.zip

07-22

Query，正如其名，是一个强大的数据处理和采集类库，它为PHP开发者提供了高效、灵活的方式来处理HTML文档，类似于jQuery在JavaScript中的作用。在这个名为"基于PHP的Query 强大的采集类库.zip"的压缩包中，很可能...

超级强大的php采集类库

08-05

标题中的“超级强大的php采集类库”指的是一个用于网页数据抓取和处理的PHP库，这类库通常包含一系列工具和方法，使得开发者可以方便地从网页中提取所需的数据，而无需深入了解HTML或XPath等解析技术。这个库可能...

基于PHP的英文仿论坛PHP采集程序源码.zip

最新发布

12-30

【标题】"基于PHP的英文仿论坛PHP采集程序源码.zip"揭示了这是一个使用PHP编程语言开发的项目，主要用于从互联网上抓取和处理英文论坛的数据。PHP是一种广泛使用的开源脚本语言，尤其适合Web开发，它允许开发者创建...

基于PHP的爱问PHP采集DaTingBa版v1.0源码.zip

09-03

对于这个数据采集工具，它可能使用了PHP的网络请求库，如cURL，来抓取网页内容；还可能运用了DOM解析库，如DOMDocument，来解析HTML并提取所需数据。【压缩包子文件的文件名称列表】：132699569378960668，这个...

基于PHP的MACCMS资源采集插件php版源码.zip

08-27

"基于PHP的MACCMS资源采集插件php版源码"表明该插件是用PHP语言编写，专为MACCMS系统设计，目的是帮助用户更方便地进行数据采集，可能包括视频、图片、文章等网络内容。【标签】"PHP"：PHP是一种广泛应用于Web开发...

php通过Xpath获取CSDN的Dom元素

SIRENES的博客

05-29

1770

Xpath的Dom分析真的比自己写正则去匹配Dom要高效很多，而要使用php的XpathDom，这里我使用的是Wamp,要打开php配置的extensions的openSSL,否则在获取网页的Dom时会报错，然后我们所需的某个元素的Xpath可以通过浏览器，例如谷歌浏览器和火狐浏览器按F12调出网页的element控制台，（这里学过前端的都会的），然后右键自己想要获得的元素，Copy Xpath复...

php xpath 网页,网页爬虫-请问PHP怎么使用xpath解析html内容呢？

weixin_30781567的博客

04-14

179

php+redis+xPath实现队列爬虫demo

rocky0503的博客

03-28

325

现使用php+redis 爬取公司信息的爬虫代码,主要用于获取公司信息，公司联系人相关信息，主要是根据天眼查https://www.tianyancha.com/search来作为源地址. function pachong($url,Redis $redis){ $contents=[]; $ch = curl_init(); curl_setopt($...

XPath Query

q_wong的专栏

09-29

371

SELECT TOP 1000 [id] ,[name] ,[remark] ,[version] ,[time] ,[eventinfo] FROM [MCPSDB].[dbo].[tbl_idp_eventsinfo_log_201009] where [eventinfo].exist('//system[@u...

php中xpath,在PHP中运行XPath查询

weixin_32520565的博客

04-04

387

在PHP中运行XPath查询Builder.com30/3/2005URL: http://www.zdnet.com.cn/developer/webdevelop/story/0,3800067013,39360703,00.htmXPath是一种可以对XML文档中的某一部分进行单独处理的一种语言，对于XSLT转换而言它尤其重要。XPath也可作为单独的工具管理应用程序中的XML数据，比如网络...

php 怎么用xpth,PHP xpath()函数讲解

weixin_33603802的博客

03-12

145

PHP xpath() 函数定义和用法xpath()函数运行对 XML 文档的 XPath 查询。如果成功，该函数返回 SimpleXMLElements 对象的一个数组。如果失败，则返回 FALSE。语法class SimpleXMLElement{string xpath(path)}实例XML 文件ToveJaniReminderPHP 代码$xml = simplexml_load_fil...

php对xml的XPath操作

dancheng1的博客

07-23

885

通过DOM结构点位节点，在数据量很大的情况下速度下降的厉害。解决方法是XPath。 XPath作用：用于快速定位节点 XPath实现查询功能： <?php //XPath $doc = new DOMDocument(); $doc->preserveWhiteSpace=false; $doc->load('books.xml'); //通过文档生成此文档的路径 $xpath = new

XPATH(lxml)爬虫测试

limaning的专栏

12-18

1747

# encoding=utf-8 注释可用中文 from lxml import etree import requests import sys headersIm = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171

php xpath,php使用XPATH解析xml

weixin_33800074的博客

03-10

191

XPATH是通过xml文档路径来解析xml的首先创建1.xmlyyj121男yyj221男2yyj350男3男3yyj431男3ab然后创建1.php

无埋点数据采集：从XPath到业务数据收集策略